avatar
дата инженеретта
@data_engineerette
05.06.2025 23:06
Как хранятся айсберг таблицы

На картинке у нас есть таблица под названием "warehouse". Для нее создаются 2 папки: data + metadata. И всего есть 4 типа файликов

emoji Data Files

Это сами данные в форматах parquet/orc/avro

emoji metadata.json

Неполный список меты:
- путь к таблице
- время обновления
- схема данных
- версии
- специфичные параметры айсберга

emoji Manifest File (404eff92-...m0.avro)

Инфа про файлы с данными: пути к ним, количество записей, статистики

emoji Manifest List (snap-....avro)

В айсбергах есть снепшот - это консистентное состояние таблицы в определенный момент времени. Снепшот знает, какие файлики ему надо выбрать, чтобы получить таблицу на сегодня/вчера/минуту назад. Поэтому по id снепшота можно вернуться к предыдущим состояниям

Так вот Manifest List - это список манифест-файлов, которые относятся к конкретному снепшоту. Этот файл контролирует добавление, обновление, удаление данных и т.п.

emojiemojiemojiemojiemojiemoji

Хотела сюда вставить картинки со структурой всех файлов, но вместе они выглядели некрасиво. Поэтому лучше сделаю отдельные посты с более детальным разбором)
🔥 24
11
9
6 30 3K

Обсуждение 6

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram