Data engineer / SQL работа
@datascjobs
7 857
Полностью удаленный формат (кроме РФ, РБ и Украины)
Отправляй резюме @Liz_Kostina
# Data Engineer
Ищем на удалёнку в Ташкент DE(MLE тоже нужен),
который поможет построить современную **Lakehouse/Data Platform**: от ingestion/CDC и пайплайнов обработки до витрин,
качества данных и наблюдаемости.
## Чем предстоит заниматься
- Разрабатывать ingestion/CDC пайплайны (Debezium/Flink CDC) и доводить их до production-качества: ретраи, дедупликация, DLQ, мониторинг lag’ов.
- Строить batch-пайплайны на Spark и выкладывать данные в Iceberg (Bronze/Silver/Gold), поддерживать schema evolution бороться с мелкими файлами
- Разрабатывать и поддерживать трансформации в dbt: staging/intermediate/marts, инкрементальные модели, тесты, документация и lineage.
- Оптимизировать запросы/витрины под Trino (партиционирование, статистики, cost-based оптимизации), при необходимости — выносить агрегаты.
- Прорабатывать модель данных и контракты с продуктами (Clickstream / Search / RecSys) и прикладными командами.
- Встраивать качество, каталогизацию и доступы: DataHub, правила OPA, ожидания Great Expectations.
- Участвовать в эксплуатации: алерты, метрики, SLO/SLA, разбор инцидентов, runbooks.
## Требования
- Сильный Python
- Опыт со Spark (PySpark; Scala/Java — большой плюс).
- Понимание lakehouse подхода и работы табличных форматов
- Опыт с Kafka, понимание CDC.
- Практика Airflow и/или dbt в реальных проектах.
- Умение думать про надежность: идемпотентность, exactly-once/at-least-once, обработка ошибок, backfill.
- Опыт с Trino/Presto, настройкой и оптимизацией аналитических запросов.
- Опыт со Flink/Spark (stream processing, event time, state, checkpoints).
- Понимание DataHub/lineage и Data Quality фреймворков.
- Опыт Kubernetes/Helm и взаимодействия с DevOps.
## Cтек
- **Storage **: S3 + **Apache Iceberg**
- **Batch processing**: Spark/Trino/Flink
- **Streaming**: **Apache Kafka** + **Apache Flink** + **Apache Spark**
- **CDC/ingestion**: **Debezium**, **Flink CDC**
- **Orchestration**: **Apache Airflow** (Kubernetes Executor)
- **Transformations / marts**: **dbt Core**
- **Query layer**: **Trino**
- **Data Quality**: dbt tests, **Great Expectations**
- **Infra**: **Kubernetes**, Helm, ArgoCD, облако
Платформа использует файлы cookie для авторизации и сохранения настроек. Продолжая работу, вы соглашаетесь с нашей Политикой использования cookie.