asisakov
Переслано от канала
посмотрел интенсив от Яндекса Agents Week(там в описании есть ссылки на все лекции и практики) — неделю рассказывали, как строить агентские системы.
Сначала по фактам, потом бахну никому не нужное мнение.
1. Первая лекция — базовая база. что такое LLM, что Яндекс называет агентами, что такое tools и MCP.
по сути: agent = runtime(Model + prompts + tools + memory + guardrails + planning skills)
2. Вторая — про память и guardrails. Память бывает в рамках сессии, всего общения и они еще выделили отдельно подтип долгосрочной — про сущности (люди, места и т.д.). Про RAG в миллионный раз рассказали и как для него качественнее запросы формировать.
Как формировать контекст, если нет денег на модель с лям контекстом:
• окно по последним сообщениям
• векторная БД по особщениям + подтягивать только релевантное
• ну либо модель на лям токенов...
Guardrails — это вообще про то, что если у модели есть тулза “сделать скидку 100%”, кто-нибудь обязательно попытается это сделать. Значит, проверки нужны везде:
input -> checks -> agent -> checks -> tool -> checks -> answer
Что важно закрывать как можно скорее:
• модерация/валидация запросов и ответов
• проверка параметров тулзов
• проверка доступов к субагентам и инструментам
• маскирование чувствительных данных перед любым походом в LLM
3. Третья лекция — агенты и мультиагенты.
Агентский цикл простой: подумал -> сделал -> посмотрел, что вышло.
Мультиагенты строятся поверх агентов через одну из стратегий:
• иерархическая. Есть оркестратор, который раздает задачки субагентам и потом собирает ответ и выдает пользователю
• децентрализованная. Каждый агент может общаться с каждым, главное решить задачку.
• роутер. ничего не оркестрирует, а просто перенаправляет в более подходящего субагента
• shared message pool. Агенты обмениваются данными асинхронно, не завися от адресов и доступности друг друга. Такой подход позволяет системе масштабироваться и совместно решать задачи через общую "доску объявлений"
4. Наверное самая интересная для меня лекция, так как агентов уже каждый агент строит, а вот как их оценивать — уже вопрос. Основные мысли:
• собирать корзину тестов не только с запросом, но и с состоянием системы
• проверять не текст ответа, а финальное состояние
• прогонять eval на том же агенте, что и в проде
• смотреть хотя бы на: решил ли задачу, те ли tools вызвал, насколько был эффективен по шагам
• оценивать через rules, человека или llm-as-judge
Мне кажется, в eval с самого начала сильно упарываться не надо, но хоть какой-то пайплайн лучше собрать сразу — итерации потом идут быстрее.
5. Последняя лекция — инженерные костыли продакшена. Самое важное — observability. По логам должно восстанавливаться всё: какой был запрос, какие tools дергались, какие были входы/выходы, по какой траектории агент пришёл к ответу.
Были ещё задачки, но там в основном вопросы по материалу и сборка простого реакт-агента в подготовленном ноутбуке.
В целом интенсив сильно легче прошлых двух яндексовских — про обучение LLM и про scaling обучения/инференса.
Чего-то мега нового я не узнал, но это, наверное, один из самых хорошо структурированных рассказов про построение мультиагентов.
Правда, я так и не понял, для кого он: для инженеров мало, а для вайбкодеров готовых промптов не завезли
Сначала по фактам, потом бахну никому не нужное мнение.
1. Первая лекция — базовая база. что такое LLM, что Яндекс называет агентами, что такое tools и MCP.
по сути: agent = runtime(Model + prompts + tools + memory + guardrails + planning skills)
2. Вторая — про память и guardrails. Память бывает в рамках сессии, всего общения и они еще выделили отдельно подтип долгосрочной — про сущности (люди, места и т.д.). Про RAG в миллионный раз рассказали и как для него качественнее запросы формировать.
Как формировать контекст, если нет денег на модель с лям контекстом:
• окно по последним сообщениям
• векторная БД по особщениям + подтягивать только релевантное
• ну либо модель на лям токенов...
Guardrails — это вообще про то, что если у модели есть тулза “сделать скидку 100%”, кто-нибудь обязательно попытается это сделать. Значит, проверки нужны везде:
input -> checks -> agent -> checks -> tool -> checks -> answer
Что важно закрывать как можно скорее:
• модерация/валидация запросов и ответов
• проверка параметров тулзов
• проверка доступов к субагентам и инструментам
• маскирование чувствительных данных перед любым походом в LLM
3. Третья лекция — агенты и мультиагенты.
Агентский цикл простой: подумал -> сделал -> посмотрел, что вышло.
Мультиагенты строятся поверх агентов через одну из стратегий:
• иерархическая. Есть оркестратор, который раздает задачки субагентам и потом собирает ответ и выдает пользователю
• децентрализованная. Каждый агент может общаться с каждым, главное решить задачку.
• роутер. ничего не оркестрирует, а просто перенаправляет в более подходящего субагента
• shared message pool. Агенты обмениваются данными асинхронно, не завися от адресов и доступности друг друга. Такой подход позволяет системе масштабироваться и совместно решать задачи через общую "доску объявлений"
4. Наверное самая интересная для меня лекция, так как агентов уже каждый агент строит, а вот как их оценивать — уже вопрос. Основные мысли:
• собирать корзину тестов не только с запросом, но и с состоянием системы
• проверять не текст ответа, а финальное состояние
• прогонять eval на том же агенте, что и в проде
• смотреть хотя бы на: решил ли задачу, те ли tools вызвал, насколько был эффективен по шагам
• оценивать через rules, человека или llm-as-judge
Мне кажется, в eval с самого начала сильно упарываться не надо, но хоть какой-то пайплайн лучше собрать сразу — итерации потом идут быстрее.
5. Последняя лекция — инженерные костыли продакшена. Самое важное — observability. По логам должно восстанавливаться всё: какой был запрос, какие tools дергались, какие были входы/выходы, по какой траектории агент пришёл к ответу.
Были ещё задачки, но там в основном вопросы по материалу и сборка простого реакт-агента в подготовленном ноутбуке.
В целом интенсив сильно легче прошлых двух яндексовских — про обучение LLM и про scaling обучения/инференса.
Чего-то мега нового я не узнал, но это, наверное, один из самых хорошо структурированных рассказов про построение мультиагентов.
Правда, я так и не понял, для кого он: для инженеров мало, а для вайбкодеров готовых промптов не завезли
👍 20
❤ 9
6
🤮 1
👀 1
3 67 1.6K
Обсуждение 3
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram