avatar
дата инженеретта
@data_engineerette
02.04.2025 18:09
Теперь дока - мой верный друг

В последнее время чувствую необходимость пойти в доку и почитать, если нужно что-то найти. Привожу список полезных ссылочек с небольшим описанием:

Spark - движок для распределенных вычислений большого объема данных на нескольких машинках
https://spark.apache.org/docs/latest/configuration.html

Trino - SQL-движок для запросов к разным видам источников данных
https://trino.io/docs/current/index.html

Scala - Java-подобный язык (но не совсем)
https://www.scala-lang.org/api/3.x/scala.html

emoji PyArrow - либа для работы с данными
https://arrow.apache.org/docs/python/index.html

YARN API - API для менеджера ресурсов на кластере
https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html

🍺 brew - менеджер пакетов для мака
https://formulae.brew.sh/formula/

emoji Python - ну что тут еще добавить
https://docs.python.org/3/library/

Airflow - оркестратор потоков обработки
https://airflow.apache.org/docs/apache-airflow/stable/index.html

Jinja - шаблоны на питоне для динамической генерации
https://jinja.palletsprojects.com/en/stable/

emoji Docker - платформа для контейнеризации приложений
https://docs.docker.com/reference/

Bamboo - CI/CD
https://confluence.atlassian.com/bamboo/bamboo-documentation-289276551.html

🗻 Iceberg - табличный формат хранения данных с транзакциями, возможностью иметь несколько версий таблицы и т.д.
https://iceberg.apache.org/docs/latest/

Apache ORC - колоночный формат хранения данных
https://orc.apache.org/docs/index.html
🔥 31
6
3
21 119 4.4K

Обсуждение 21

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram