Data Engineering / Инженерия данных / Data Engineer / DWH (@data_engineer_path)

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

28.05.2026 05:22

Тестовый пример реализации MCP Server на Go для OpenCode

▫️Есть набор specs для написания через агентов с нуля MCP Server (теоретически можно реализовать mcp для взаимодействия с любым ПО)
▫️Сгенерирована документация по разработке MCP Server (GitHub Pages)

Сам бинарник возвращает из Яндекс метрики список счётчиков (был под рукой api). Основная цель - понять как реализовать свой mcp для взаимодействия с opencode, как собрать бинарник.

🔗 Исходный код, документация и готовые бинарники доступны в репозитории: https://github.com/ivanshamaev/mcp-server

🔗 Краткая документация по разработке MCP: https://ivanshamaev.github.io/mcp-server/

🔥 3

👏 2

❤ 1

👍 1

18 1.3K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

18.05.2026 15:01

Data Engineering AI Agent Skills - экспериментальный набор скиллов для агентной разработки и построения Agentic Data Platform.

https://datatalks.ru/de-ai-agent-skills/

Скиллы все в открытом доступе https://github.com/ivanshamaev/de-agent-skills

🔥 13

👍 6

👏 2

❤ 1

🗿 1

79 2.2K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

27.04.2026 07:05

По Trino 479 документации https://datatalks.ru/trino-docs/ переведены все разделы + добавлена информация по dbt

🔥 29

👍 8

❤ 3

👏 2

😁 1

58 2.5K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

15.04.2026 06:03

Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion) / Хабр

В статье описаны базовые сценарии работы, архитектурные особенности и переход движка на rust.

https://habr.com/ru/articles/1021290/

Хабр

Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion)

TL;DR Volga — open-source движок обработки данных, созданный как альтернатива Apache Spark и Apache Flink и ориентированный на требования real-time AI/ML систем: консистентное вычисление фичей между...

👀 6

👏 5

⚡ 1

❤ 1

👍 1

30 2.8K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

11.04.2026 07:31

Готов проект по 2 модулю AI Agents — research-agent

Репозиторий: https://github.com/ivanshamaev/research-agent

Изначальная цель заключалась в том, чтобы на простом примере пройти весь цикл взаимодействия: как оркестратор общается с LLM, как агент выбирает инструменты, как возвращаются результаты вызовов, где хранится состояние и в какой момент всё это собирается в итоговый отчёт.

В процессе реализации исходный описанный концепт во 2 модуле изменился. Плюс вместо 1-2 двух llm моделей добавились open-source варианты. И самое важное - добавил gatellm.ru, на котором и протестировался (не реклама, первое что попалось со стартовым балансом на тест).

В итоге получился CLI-агент, который:
- ищет материалы по теме,
- загружает и обрабатывает страницы,
- суммаризирует найденное,
- собирает результат в структурированный markdown-отчёт с источниками (здесь пока что бага, на днях доработаю).

В проекте есть подробная документация со схемами. Для тех, кто хочет разобраться в том, как создать свой агент - welcome:
- как выглядит ReAct-цикл на практике,
- зачем нужен tool registry,
- где проходит граница между orchestration и tools,
- и т.д.

Агент написан и отлажен за 1 час с помощью claude code (с учетом переделки части модулей и поиска api llm для тестов).

👉🏻 В репозитории есть docs, в которых разложена реализация.

GitHub

GitHub - ivanshamaev/research-agent: Research Agent: Автономный CLI-агент для исследования тем, реализует паттерн ReAct (Reason + Act).

Research Agent: Автономный CLI-агент для исследования тем, реализует паттерн ReAct (Reason + Act). - ivanshamaev/research-agent

👍 15

👏 3

🤝 2

35 2.6K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

09.04.2026 16:04

Какая же жиза)

😁 14

🤣 9

👍 1

👏 1

🤨 1

15 1.9K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

09.04.2026 06:00

Trino Перевод DeepWiki
https://datatalks.ru/trino-deepwiki/

🔥 25

👍 7

❤ 5

👏 1

91 2.2K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

04.04.2026 15:06

🤖 opencode: Учимся создавать виртуальные команды из агентов для Data-проектов 🚀

Делюсь небольшой инструкцией по OpenCode — инструменту, который можно использовать не просто как CLI, а как полноценный слой настройки проекта для работы с агентами, ролями, правилами и workflow 👇

За основу я взял демо-пример, где OpenCode + ChatGPT использовались для создания проекта с аналитическим стеком.
Сразу оговорюсь: в самом проекте не было четкой постановки задачи 🎯 Делал быстрые наброски, чтобы понять как настраивать opencode и какая у него структура.

Что попало в инструкцию:
✨ как правильно оформить проект
✨ где и что писать
✨ как задавать правила для агента
✨ как подключать роли, skills и спецификации
✨ как сделать так, чтобы агент работал не “с нуля”, а в контексте вашей команды

Что оказалось особенно ценным 💡
OpenCode становится по-настоящему полезным, когда воспринимаешь его не как “чатик в терминале”, а как часть инженерной инфраструктуры проекта.

То есть важно не только запустить tool, но и продумать:
📌 AGENTS.md — как проектный контракт
📌 opencode.json — как control plane для правил, инструментов и разрешений
📌 .opencode/agents/ — для role-based subagents
📌 .opencode/skills/ — для повторяемых playbooks
📌 docs/specs/ — для устойчивых спецификаций, на которые может опираться агент

В итоге получается интересный подход:
можно собирать “виртуальную команду” из агентов под data-проект — например, выделять роли аналитика, архитектора, infra-инженера, а также задавать им понятные зоны ответственности 🧩

Мне кажется, это особенно полезно тем, кто хочет:
— структурировать AI-работу в репозитории
— выстроить понятные правила для агентов
— сделать процесс воспроизводимым для команды
— использовать AI не только для генерации кода, но и для организации инженерного процесса ⚙️📊

datatalks.ru

Большой гайд по настройке OpenCode-проекта

Подробный chapter-based гайд по настройке OpenCode-проекта: AGENTS.md, opencode.json, docs/specs, .opencode/agents, .opencode/skills, разрешения и командные процессы.

👍 11

🔥 6

🤝 4

❤ 1

65 2.4K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

26.03.2026 07:01

AI Agent Engineer Roadmap

Некоторое время назад начал накидывать через claude импровизационный roadmap по разработке ai agents. Исходная цель: быстро вникнуть в особенности и архитектуру решений для применения в работе. В целом уже что-то можно почитать и изучить.

По проектам пока не уверен, что именно будет (и будет ли).

https://datatalks.ru/ai-agents/

❤ 12

🔥 9

👏 1

70 2.4K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

19.03.2026 06:03

Привет 👋🏻
Документация airflow с github pages переехала на новый адрес https://datatalks.ru/airflow-docs/.

А по Trino тоже появилась заготовка https://datatalks.ru/trino-docs/ (пока висит английская версия, чтобы без vpn смотреть)

🔥 19

👍 6

👏 1

48 2.6K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

17.03.2026 06:35

Полное руководство по созданию Skills для Claude

Перевод guide от Anthropic

https://fkonovalov.github.io/claude-skills-guide-ru/

fkonovalov.github.io

Полное руководство по созданию Skills для Claude

Русский перевод официального гайда Anthropic по Skills для Claude AI

👍 17

🔥 4

❤ 1

👏 1

💯 1

68 2.5K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

28.02.2026 15:30

Запряг cursor перевести доку с сайта astronomer. Детально не читал, но вроде получилось хорошо.
~~https://github.com/ivanshamaev/airflow-docs~~ репозиторий недоступен

Update: прикрутил страничку https://datatalks.ru/airflow-docs/ (страничка переехала)

👍 28

🏆 8

🔥 3

🤝 1

👾 1

44 3.2K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

14.02.2026 16:34

GitHub Agentic Workflows are now in technical preview - GitHub Changelog

GitHub выпустил прикольную фичу, которая по сути даёт вам суперсилу "DevOps" для работы с CI/CD.
Теперь достаточно написать то, что вы хотите получить в формате Markdown, а агент сам сделает всю работу.

https://github.blog/changelog/2026-02-13-github-agentic-workflows-are-now-in-technical-preview/

The GitHub Blog

GitHub Agentic Workflows are now in technical preview - GitHub Changelog

GitHub Agentic Workflows let you automate repository tasks using AI agents that run within GitHub Actions. Write workflows in plain Markdown instead of complex YAML, and let AI handle intelligent…

👍 3

🔥 3

24 3.9K

Data Engineering / Инженерия данных / Data Engineer / DWH

Переслано от Басов про стартапы

14.02.2026 11:12

Подборка сайтов со скиллами для ИИ-агентов — можно научить своего бота абсолютно всему без исключения:

• skills.sh
• skillhub.club
• skillsmp.com

Сохраняем.

👍 13

❤ 1

68 2.8K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

14.02.2026 10:34

🚀 Airflow: пример Mapped Tasks + Trigger DAG

В Apache Airflow есть две фичи:
👉 Mapped Tasks - динамическое создание набора тасок с разными параметрами
👉 Trigger DAG - запуск одного DAG из другого с передачей параметров

Я собрал небольшой demo-пример, который показывает, как эти механики можно использовать вместе.

1️⃣ Первый DAG — Orchestrator
Реализованы Mapped Tasks. Каждая mapped-таска:
▫️ получает свой параметр
▫️ триггерит второй DAG

Выполнение идёт последовательно (одна mapped-таска за другой). По сути — это контроллер, который запускает отдельный pipeline для каждого входного значения.

2️⃣ Второй DAG — Worker
▫️ Принимает параметр из первого DAG
▫️ Подставляет его в SQL-запрос
▫️ Выполняет запрос в PostgreSQL

Также сгенерирована документация по этим двум дагам и есть минимум теории по этим двум темам (с оглядкой на эти два дага):
🔸 Airflow Mapped Tasks Tutorial
🔸 Airflow Trigger Dag Tutorial

🔗 Ссылка на даги и доку: trigger_example

⏬⏬⏬
В репозитории также можно найти docker-compose.yml, для запуска этих примеров.

GitHub

data-tools/airflow/demo/dags/trigger_example at main · ivanshamaev/data-tools

PostgreSQL, Docker, Apache Airlfow, ClickHouse, Superset и другие инструменты - ivanshamaev/data-tools

🔥 18

👍 1

51 2.7K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

13.02.2026 06:03

Data-команды должны стать командами контекста
Context engineering = управление данными + инженерия данных + наука о данных.

Понравилась статья, закинул перевод на сайт. На мой взгляд, content engineering может стать как отдельным ответвлением профессии (здесь и аналитика, и бизнес-процессы, более быстрое получение ответов на вопросы). С другой стороны дата команды могут трансформироваться в нечто большее.

Всё зависит от ваших экспериментов и открытости к технологиям. Главное держать баланс хайпа и реальной пользой для бизнеса.

https://datatalks.ru/context-engineering-data-teams/

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Context engineering = data governance + data engineering + data science

Context engineering = data governance + data engineering + data science. Data-команды должны стать командами контекста.

👌 10

👍 3

47 2.3K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

07.02.2026 07:03

ClickHouse выпустил agent-skills

Agent Skills — это открытый стандарт для расширения возможностей ИИ-агентов с помощью модулей, которые дают им доменные знания, инструкции и повторяемые процедуры без необходимости дообучения модели.

По сути это набор лучших практик работы с ClickHouse: как правильно проектировать схемы, оптимизировать запросы и настраивать загрузку данных. Далее эти skills подключаются в AI редактор, например, Copilot, Claude Code, Cursor.

GitHub - ClickHouse/agent-skills: The official Agent Skills for ClickHouse and ClickHouse Cloud
https://github.com/ClickHouse/agent-skills

GitHub

GitHub - ClickHouse/agent-skills: The official Agent Skills for ClickHouse and ClickHouse Cloud

The official Agent Skills for ClickHouse and ClickHouse Cloud - ClickHouse/agent-skills

🔥 17

❤ 8

👍 4

108 3.6K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

15.01.2026 08:49

Data Pipelines with Apache Airflow
Orchestration for Data and AI Second Edition 2026

Второе издание (скачено с сайта astronomer бесплатно)

deruiter_Astronomer_Final.pdf

27.98 МБ

🔥 17

👍 4

95 3.8K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

11.12.2025 07:06

Настроение четверга

😁 25

💯 8

44 4.6K

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path

20.11.2025 06:03

Обзор Trino vs Starrocks

Кажется, что Trino выигрывает по популярности, как единый SQL инструмент под разные источники данных и возможность их объединить (Federated queries). Еще в Трино имеется фича по динамическому расширению воркеров и Velox на C++.

На одном из meetup команда Авито говорила, что в Starrocks плохо обстоят дела с ограничениями по ресурсам на query. То есть может случиться, что несколько запросов заберут все ресурсы и кластер может "упасть" (возможно ошибаюсь в пересказе). Может быть уже это пофиксили в новых версиях. В трино похожая ситуация может быть, если включить FTE Task mode, то может закончиться память.
Еще в Starrocks при рестарте загружаются заново детальные Iceberg statistics.

Пока по обзорам Starrocks выглядит лучше, но вероятно есть детали. Нужно иметь ввиду, что у Trino ОЧЕНЬ много различных настроек и конфигураций. Взять тот же FTE (aka spills). Поэтому только по одним графикам сложно утверждать однозначно, что Starrocks лучше.

Не воспринимайте этот пост как рекомендацию 😇

Trino vs Starrocks.pdf

1.03 МБ

👍 11

34 5.3K

Data Engineering / Инженерия данных / Data Engineer / DWH

Вход в экосистему

Ваши настройки cookie