Data Engineer
Ищем в Ташкент DE(MLE тоже нужен),
который поможет построить современную Lakehouse/Data Platform: от ingestion/CDC и пайплайнов обработки до витрин,
качества данных и наблюдаемости.
## Чем предстоит заниматься
- Разрабатывать ingestion/CDC пайплайны (Debezium/Flink CDC) и доводить их до production-качества: ретраи, дедупликация, DLQ, мониторинг lag’ов.
- Строить batch-пайплайны на Spark и выкладывать данные в Iceberg (Bronze/Silver/Gold), поддерживать schema evolution бороться с мелкими файлами
- Разрабатывать и поддерживать трансформации в dbt: staging/intermediate/marts, инкрементальные модели, тесты, документация и lineage.
- Оптимизировать запросы/витрины под Trino (партиционирование, статистики, cost-based оптимизации), при необходимости — выносить агрегаты.
- Прорабатывать модель данных и контракты с продуктами (Clickstream / Search / RecSys) и прикладными командами.
- Встраивать качество, каталогизацию и доступы: DataHub, правила OPA, ожидания Great Expectations.
- Участвовать в эксплуатации: алерты, метрики, SLO/SLA, разбор инцидентов, runbooks.
## Требования
- Сильный Python
- Опыт со Spark (PySpark; Scala/Java — большой плюс).
- Понимание lakehouse подхода и работы табличных форматов
- Опыт с Kafka, понимание CDC.
- Практика Airflow и/или dbt в реальных проектах.
- Умение думать про надежность: идемпотентность, exactly-once/at-least-once, обработка ошибок, backfill.
- Опыт с Trino/Presto, настройкой и оптимизацией аналитических запросов.
- Опыт со Flink/Spark (stream processing, event time, state, checkpoints).
- Понимание DataHub/lineage и Data Quality фреймворков.
- Опыт Kubernetes/Helm и взаимодействия с DevOps.
## Cтек
- Storage : S3 + Apache Iceberg
- Batch processing: Spark/Trino/Flink
- Streaming: Apache Kafka + Apache Flink + Apache Spark
- CDC/ingestion: Debezium, Flink CDC
- Orchestration: Apache Airflow (Kubernetes Executor)
- Transformations / marts: dbt Core
- Query layer: Trino
- Data Quality: dbt tests, Great Expectations
- Infra: Kubernetes, Helm, ArgoCD, облако
Если интересно, резюме можно направить -@dadatum
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram