Кучевые АйТи (@oblakoteka): ⚒️ Дилемма молотка и отвертки: выбор между S3 и HDFS для больших объемов данных В CEO Обла…

⚒️ Дилемма молотка и отвертки: выбор между S3 и HDFS для больших объемов данных

В статье на Вайти CEO Облакотеки Максим Захаренко рассказал о двух легендарных технологиях, которые пришли из разных миров, но плотно сплелись в общем поле задач и функций. В чем разница и что выбрать — пересказываем в формате поста.

Объектно или распределенно?

Объектное хранилище класса S3 — универсальный интерфейс облачного хранения; его поддерживает и Облакотека (наш S3-совместимый сервис). Это как бесконечные шкафы с запечатанными коробками-объектами, каждую из которых можно сложить или забрать только целиком: быстрый и удобный доступ без шансов сразу разобрать и обработать контент внутри.

Распределенная файловая система HDFS из мира big data — как мастерская со своим складом под боком. Она режет файлы на блоки и раскладывает по множеству «полочек», чтобы проводить частые вычисления в тяжелых аналитических «мельницах» напрямую с места хранения.

Гибкость или скорость?

S3 почти идеален, когда нужно надежное хранилище: легко искать, поддерживать и масштабировать. Вы складываете данные в облако, они доступны разным командам, приложениям, внешним сервисам — об остальном думает провайдер. Гибко и просто: то, что надо, если вы не рветесь заниматься своим железом.

Если же речь об интенсивной обработке, частом чтении и записи в реальном времени, первым выбором может стать старый добрый HDFS. Когда сотни узлов жуют терабайты данных, нужна минимальная задержка и гарантия мгновенного доступа. HDFS обеспечивает быструю работу с гигантскими массивами, ведь файлы хранятся локально и сразу доступны всем узлам кластера.

Дилемма или синергия?

Один из клиентов Облакотеки копил десятилетия статистики, логов и копий. Мы вынесли архивы в объектное хранилище: теперь компания платит «за фактическое потребление», избавилась от головной боли с железом и администрированием и сосредоточился на анализе свежих данных.

Другой клиент — стартап в сфере VR и 3D-контента, каждый день генерит терабайты сырых видео и телеметрии. Ему нужно не только хранить, но и быстро обрабатывать данные: строить модели, анализировать и вести ML.

Стартап пытался складывать информацию в облако, но быстро понял, что не хватает скорости отдачи при анализе. Поэтому компания развернула собственный Hadoop-кластер на платформе Облакотеки: система собирает данные в HDFS и сразу крутит все вычисления прямо там.

В последнем примере обработанные результаты и исторические пласты данных теперь текут обратно в S3, чтобы их долго хранили и делились ими по запросу сервисов. Так мы выжали максимум из обеих технологий, не отказываясь от сильных сторон ни одной из них.

S3 и HDFS — как молоток и отвертка: оба нужны в ящике инструментов, и стоит знать, как и когда их применять, чтобы достигать конкретных целей с максимальным эффектом.

#дорогой_бэклог

Обсуждение 0

Вход в экосистему

Ваши настройки cookie