avatar
Data Engineering / Инженерия данных / Data Engineer / DWH
@data_engineer_path
15.04.2026 11:03
👀 6
👏 5
1
28 1.7K
avatar
Data Engineering / Инженерия данных / Data Engineer / DWH
@data_engineer_path
11.04.2026 12:31
Готов проект по 2 модулю AI Agents — research-agent

Репозиторий: https://github.com/ivanshamaev/research-agent

Изначальная цель заключалась в том, чтобы на простом примере пройти весь цикл взаимодействия: как оркестратор общается с LLM, как агент выбирает инструменты, как возвращаются результаты вызовов, где хранится состояние и в какой момент всё это собирается в итоговый отчёт.

В процессе реализации исходный описанный концепт во 2 модуле изменился. Плюс вместо 1-2 двух llm моделей добавились open-source варианты. И самое важное - добавил gatellm.ru, на котором и протестировался (не реклама, первое что попалось со стартовым балансом на тест).

В итоге получился CLI-агент, который:
- ищет материалы по теме,
- загружает и обрабатывает страницы,
- суммаризирует найденное,
- собирает результат в структурированный markdown-отчёт с источниками (здесь пока что бага, на днях доработаю).

В проекте есть подробная документация со схемами. Для тех, кто хочет разобраться в том, как создать свой агент - welcome:
- как выглядит ReAct-цикл на практике,
- зачем нужен tool registry,
- где проходит граница между orchestration и tools,
- и т.д.

Агент написан и отлажен за 1 час с помощью claude code (с учетом переделки части модулей и поиска api llm для тестов).

👉🏻 В репозитории есть docs, в которых разложена реализация.
GitHub
GitHub - ivanshamaev/research-agent: Research Agent: Автономный CLI-агент для исследования тем, реализует паттерн ReAct (Reason + Act).
Research Agent: Автономный CLI-агент для исследования тем, реализует паттерн ReAct (Reason + Act). - ivanshamaev/research-agent
👍 15
👏 3
🤝 2
33 1.8K
avatar
Data Engineering / Инженерия данных / Data Engineer / DWH
@data_engineer_path
04.04.2026 20:06
🤖 opencode: Учимся создавать виртуальные команды из агентов для Data-проектов 🚀

Делюсь небольшой инструкцией по OpenCode — инструменту, который можно использовать не просто как CLI, а как полноценный слой настройки проекта для работы с агентами, ролями, правилами и workflow 👇

За основу я взял демо-пример, где OpenCode + ChatGPT использовались для создания проекта с аналитическим стеком.
Сразу оговорюсь: в самом проекте не было четкой постановки задачи 🎯 Делал быстрые наброски, чтобы понять как настраивать opencode и какая у него структура.

Что попало в инструкцию:
✨ как правильно оформить проект
✨ где и что писать
✨ как задавать правила для агента
✨ как подключать роли, skills и спецификации
✨ как сделать так, чтобы агент работал не “с нуля”, а в контексте вашей команды

Что оказалось особенно ценным 💡
OpenCode становится по-настоящему полезным, когда воспринимаешь его не как “чатик в терминале”, а как часть инженерной инфраструктуры проекта.

То есть важно не только запустить tool, но и продумать:
📌 AGENTS.md — как проектный контракт
📌 opencode.json — как control plane для правил, инструментов и разрешений
📌 .opencode/agents/ — для role-based subagents
📌 .opencode/skills/ — для повторяемых playbooks
📌 docs/specs/ — для устойчивых спецификаций, на которые может опираться агент

В итоге получается интересный подход:
можно собирать “виртуальную команду” из агентов под data-проект — например, выделять роли аналитика, архитектора, infra-инженера, а также задавать им понятные зоны ответственности 🧩

Мне кажется, это особенно полезно тем, кто хочет:
— структурировать AI-работу в репозитории
— выстроить понятные правила для агентов
— сделать процесс воспроизводимым для команды
— использовать AI не только для генерации кода, но и для организации инженерного процесса ⚙️📊
datatalks.ru
Большой гайд по настройке OpenCode-проекта
Подробный chapter-based гайд по настройке OpenCode-проекта: AGENTS.md, opencode.json, docs/specs, .opencode/agents, .opencode/skills, разрешения и командные процессы.
👍 11
🔥 6
🤝 4
58 2K
avatar
Data Engineering / Инженерия данных / Data Engineer / DWH
@data_engineer_path
26.03.2026 12:01
AI Agent Engineer Roadmap

Некоторое время назад начал накидывать через claude импровизационный roadmap по разработке ai agents. Исходная цель: быстро вникнуть в особенности и архитектуру решений для применения в работе. В целом уже что-то можно почитать и изучить.

По проектам пока не уверен, что именно будет (и будет ли).

https://datatalks.ru/ai-agents/
11
🔥 9
👏 1
64 2.1K
avatar
Data Engineering / Инженерия данных / Data Engineer / DWH
@data_engineer_path
17.03.2026 11:35
👍 17
🔥 4
1
67 2.3K
avatar
Data Engineering / Инженерия данных / Data Engineer / DWH
@data_engineer_path
28.02.2026 20:30
Запряг cursor перевести доку с сайта astronomer. Детально не читал, но вроде получилось хорошо.
https://github.com/ivanshamaev/airflow-docs репозиторий недоступен

Update: прикрутил страничку https://datatalks.ru/airflow-docs/ (страничка переехала)
👍 28
🏆 8
🔥 3
44 3K
avatar
Data Engineering / Инженерия данных / Data Engineer / DWH
@data_engineer_path
14.02.2026 21:34
GitHub Agentic Workflows are now in technical preview - GitHub Changelog

GitHub выпустил прикольную фичу, которая по сути даёт вам суперсилу "DevOps" для работы с CI/CD.
Теперь достаточно написать то, что вы хотите получить в формате Markdown, а агент сам сделает всю работу.

https://github.blog/changelog/2026-02-13-github-agentic-workflows-are-now-in-technical-preview/
The GitHub Blog
GitHub Agentic Workflows are now in technical preview - GitHub Changelog
GitHub Agentic Workflows let you automate repository tasks using AI agents that run within GitHub Actions. Write workflows in plain Markdown instead of complex YAML, and let AI handle intelligent…
👍 3
🔥 3
21 3.5K
avatar
Data Engineering / Инженерия данных / Data Engineer / DWH
Переслано от Басов про стартапы
14.02.2026 16:12
Подборка сайтов со скиллами для ИИ-агентов — можно научить своего бота абсолютно всему без исключения:

skills.sh
skillhub.club
skillsmp.com

Сохраняем.
👍 12
1
66 2.5K
avatar
Data Engineering / Инженерия данных / Data Engineer / DWH
@data_engineer_path
14.02.2026 15:34
🚀 Airflow: пример Mapped Tasks + Trigger DAG

В Apache Airflow есть две фичи:
👉 Mapped Tasks - динамическое создание набора тасок с разными параметрами
👉 Trigger DAG - запуск одного DAG из другого с передачей параметров

Я собрал небольшой demo-пример, который показывает, как эти механики можно использовать вместе.

1️⃣ Первый DAG — Orchestrator
Реализованы Mapped Tasks. Каждая mapped-таска:
▫️ получает свой параметр
▫️ триггерит второй DAG

Выполнение идёт последовательно (одна mapped-таска за другой). По сути — это контроллер, который запускает отдельный pipeline для каждого входного значения.

2️⃣ Второй DAG — Worker
▫️ Принимает параметр из первого DAG
▫️ Подставляет его в SQL-запрос
▫️ Выполняет запрос в PostgreSQL

Также сгенерирована документация по этим двум дагам и есть минимум теории по этим двум темам (с оглядкой на эти два дага):
🔸 Airflow Mapped Tasks Tutorial
🔸 Airflow Trigger Dag Tutorial

🔗 Ссылка на даги и доку: trigger_example

⏬⏬⏬
В репозитории также можно найти docker-compose.yml, для запуска этих примеров.
GitHub
data-tools/airflow/demo/dags/trigger_example at main · ivanshamaev/data-tools
PostgreSQL, Docker, Apache Airlfow, ClickHouse, Superset и другие инструменты - ivanshamaev/data-tools
🔥 18
👍 1
50 2.5K
avatar
Data Engineering / Инженерия данных / Data Engineer / DWH
@data_engineer_path
13.02.2026 11:03
Data-команды должны стать командами контекста
Context engineering = управление данными + инженерия данных + наука о данных.

Понравилась статья, закинул перевод на сайт. На мой взгляд, content engineering может стать как отдельным ответвлением профессии (здесь и аналитика, и бизнес-процессы, более быстрое получение ответов на вопросы). С другой стороны дата команды могут трансформироваться в нечто большее.

Всё зависит от ваших экспериментов и открытости к технологиям. Главное держать баланс хайпа и реальной пользой для бизнеса.

https://datatalks.ru/context-engineering-data-teams/
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Context engineering = data governance + data engineering + data science
Context engineering = data governance + data engineering + data science. Data-команды должны стать командами контекста.
👌 10
👍 3
47 2.1K
avatar
Data Engineering / Инженерия данных / Data Engineer / DWH
@data_engineer_path
07.02.2026 12:03
ClickHouse выпустил agent-skills

Agent Skills — это открытый стандарт для расширения возможностей ИИ-агентов с помощью модулей, которые дают им доменные знания, инструкции и повторяемые процедуры без необходимости дообучения модели.

По сути это набор лучших практик работы с ClickHouse: как правильно проектировать схемы, оптимизировать запросы и настраивать загрузку данных. Далее эти skills подключаются в AI редактор, например, Copilot, Claude Code, Cursor.

GitHub - ClickHouse/agent-skills: The official Agent Skills for ClickHouse and ClickHouse Cloud
https://github.com/ClickHouse/agent-skills
GitHub
GitHub - ClickHouse/agent-skills: The official Agent Skills for ClickHouse and ClickHouse Cloud
The official Agent Skills for ClickHouse and ClickHouse Cloud - ClickHouse/agent-skills
🔥 17
8
👍 4
103 3.4K
avatar
Data Engineering / Инженерия данных / Data Engineer / DWH
@data_engineer_path
20.11.2025 11:03
Обзор Trino vs Starrocks

Кажется, что Trino выигрывает по популярности, как единый SQL инструмент под разные источники данных и возможность их объединить (Federated queries). Еще в Трино имеется фича по динамическому расширению воркеров и Velox на C++.

На одном из meetup команда Авито говорила, что в Starrocks плохо обстоят дела с ограничениями по ресурсам на query. То есть может случиться, что несколько запросов заберут все ресурсы и кластер может "упасть" (возможно ошибаюсь в пересказе). Может быть уже это пофиксили в новых версиях. В трино похожая ситуация может быть, если включить FTE Task mode, то может закончиться память.
Еще в Starrocks при рестарте загружаются заново детальные Iceberg statistics.

Пока по обзорам Starrocks выглядит лучше, но вероятно есть детали. Нужно иметь ввиду, что у Trino ОЧЕНЬ много различных настроек и конфигураций. Взять тот же FTE (aka spills). Поэтому только по одним графикам сложно утверждать однозначно, что Starrocks лучше.

Не воспринимайте этот пост как рекомендацию 😇
Trino vs Starrocks.pdf
1.03 МБ
👍 11
34 5.2K
avatar
Data Engineering / Инженерия данных / Data Engineer / DWH
@data_engineer_path
13.11.2025 10:30
Как устроена работа Iceberg на примере Trino и Rest Catalog?

Iceberg - это табличный формат хранения данных в datalake, который управляется через библиотеку на Java (есть также реализации на Go, Rust, C++ и Python). Но базово работает через Java.
В статье кратко рассматривается как устроено Trino и как устроен Iceberg Java API (без погружения в разработку).

Ну и ссылочки на deepwiki по Iceberg/Trino/Rest Catalog.

https://ivan-shamaev.ru/how-iceberg-works-using-trino-and-rest-catalog/

#Trino #Iceberg #RestCatalog #Java
🔥 11
2
👍 2
54 4K
avatar
Data Engineering / Инженерия данных / Data Engineer / DWH
@data_engineer_path
08.11.2025 17:20
Оптимизация запросов в Trino

Наковырял из документации основные термины и понятия по Trino (плюс настройки из последней версии 478, которые могут пригодиться для оптимизации). Получился в некотором виде конспект.

https://ivan-shamaev.ru/trino-query-optimizer/

Также на днях вышел перевод книги Trino. Анализ больших данных.

Первая глава и оглавление доступны для просмотра

#trino #iceberg
Персональный блог Data Engineer | Ex-TeamLead BI Developer
Оптимизация запросов в Trino. Обзор функциональности и настроек
Оптимизация запросов в Trino. Обзор функциональности и настроек. Перевод документации по улучшению производительности sql запросов в трино
🔥 20
👍 7
1
88 6.8K