Data, Stories and Languages (@datastorieslanguages): Сходил на конференцию AI Conf доклады хорошие, и все про агентов. Про классический ML уже …

Сходил на конференцию AI Conf доклады хорошие, и все про агентов. Про классический ML уже и не рассказывают

1. Про публикации докладов индустрии на A конференциях*: удивительно, но среднее время публикации 9 месяцев. Тк можно несколько раз проходить ревью на разных конференциях и последовательно улучшать работу. Все давно используют LLM для кода, ревью, обзорных статей и т. д. - то, что еще в Q3 прошлого года не работало. Но вот придумать что-то новое у LLM пока не получается: пробовали оставлять их подумать на пару недель - дорого и неэффективно, но, думаю, это вопрос времени. Интересная гипотеза: в будущем к статье будет прилагаться zip-архив экспериментов, которые AI сможет детально проверить, и вся ценность будет заключаться в идее.

2. Сходил на два воркшопа. По построению search-агентов (ReAct с бесплатными API Groq + Tavily для поиска, который дает 1000 бесплатных запросов в месяц). И еще один как строить мониторинг с langfuse.

3. Если в прошлом году еще спорили, чем отличается LLM-решение от агентов, то теперь придумали Agent Harness (например, Deep Agents - там сразу и память, и скиллы вместо тулзов). Работает достойно, но создание скилла на основе готового минус 2 млн токенов, а один вызов еще минус 100к. Понятно, что надо смотреть по метрикам, но токенов кушает достойно. В качестве альтернативы Langfuse посмотрели Arize Phoenix - удобно, что он сам всё оборачивает и так же можно смотреть трейсы.

4. Интересный доклад про голосовых агентов, в том числе для телефонии. Voice-to-voice модели - это удобно, но для них пока нет туллинга и контекстом сложно управлять. Из-за этого всё еще работает связка Speech-to-Text -> LLM -> Text-to-Speech. Но приходится добавлять модели, которые детекят, когда человек перебивает бота. Из-за пауз моделька может начать анализировать ответ раньше времени, а значит, нужно сегментировать речь - а это еще дополнительные модели и рост latency. Плюс нужно нормализовать текст после Whisper, который, если слышит музыку, любит галлюцинировать (условно, пишет «Транскрибировано Димон»). Сложный домен. А если сервишь сам, то приходится выбирать между Ray Serve (vLLM) и Triton Inference Server - и там всё очень серьезно.

5. Создание контента. Был блогер с YouTube-канала, который отдал на откуп LLM почти всё: от обложки и сценария до самого контента. Оставил только человека в кадре, который читает текст. Теперь сразу понятно, какой контент был создан именно так (спойлер: там, где на обложке капс и слишком кричащий заголовок).

P.S. Еда по талонам, а там - котлетка с пюрешкой. Как так-то?

Обсуждение 2

Вход в экосистему

Ваши настройки cookie