⚒️ Дилемма молотка и отвертки: выбор между S3 и HDFS для больших объемов данных
В статье на Вайти CEO Облакотеки Максим Захаренко рассказал о двух легендарных технологиях, которые пришли из разных миров, но плотно сплелись в общем поле задач и функций. В чем разница и что выбрать — пересказываем в формате поста.
Объектно или распределенно?
Объектное хранилище класса S3 — универсальный интерфейс облачного хранения; его поддерживает и Облакотека (наш S3-совместимый сервис). Это как
бесконечные шкафы с запечатанными коробками-объектами, каждую из которых можно сложить или забрать только целиком: быстрый и удобный доступ без шансов сразу разобрать и обработать контент внутри.
Распределенная файловая система HDFS из мира big data — как
мастерская со своим складом под боком. Она режет файлы на блоки и раскладывает по множеству «полочек», чтобы проводить частые вычисления в тяжелых аналитических «мельницах» напрямую с места хранения.
Гибкость или скорость?
S3 почти идеален, когда нужно надежное хранилище: легко искать, поддерживать и масштабировать. Вы складываете данные в облако, они доступны разным командам, приложениям, внешним сервисам — об остальном думает провайдер. Гибко и просто: то, что надо, если вы не рветесь заниматься своим железом.
Если же речь об интенсивной обработке, частом чтении и записи в реальном времени, первым выбором может стать старый добрый HDFS. Когда сотни узлов жуют терабайты данных, нужна минимальная задержка и гарантия мгновенного доступа. HDFS обеспечивает быструю работу с гигантскими массивами, ведь файлы хранятся локально и сразу доступны всем узлам кластера.
Дилемма или синергия?
Один из клиентов Облакотеки копил десятилетия статистики, логов и копий. Мы вынесли архивы в объектное хранилище: теперь компания платит «за фактическое потребление», избавилась от головной боли с железом и администрированием и сосредоточился на анализе свежих данных.
Другой клиент — стартап в сфере VR и 3D-контента, каждый день генерит терабайты сырых видео и телеметрии. Ему нужно не только хранить, но и быстро обрабатывать данные: строить модели, анализировать и вести ML.
Стартап пытался складывать информацию в облако, но быстро понял, что не хватает скорости отдачи при анализе. Поэтому компания развернула собственный Hadoop-кластер на платформе Облакотеки: система собирает данные в HDFS и сразу крутит все вычисления прямо там.
В последнем примере обработанные результаты и исторические пласты данных теперь текут обратно в S3, чтобы их долго хранили и делились ими по запросу сервисов. Так мы выжали максимум из обеих технологий, не отказываясь от сильных сторон ни одной из них.
S3 и HDFS — как молоток и отвертка: оба нужны в ящике инструментов, и стоит знать, как и когда их применять, чтобы достигать конкретных целей с максимальным эффектом.
#дорогой_бэклог
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram