Сергей Булаев AI 🤖 (@sergiobulaev): Расскажу вам про - новый метод обучения моделей. Суть простая: вместо того чтобы подключ…

Расскажу вам про SSRL (Self‑Search Reinforcement Learning) - новый метод обучения моделей.

Суть простая: вместо того чтобы подключать интернет и гонять модель в поисковик, ей предлагают искать ответы прямо внутри себя, используя то, что уже «прошито» в памяти. Получается внутренняя имитация поиска - модель играет роль собственного поисковика.

Факты, которые стоит знать:
• SSRL - это метод обучения больших языковых моделей (LLM).
• Работает примерно в 5,5 раза быстрее по сравнению с подходом ZeroSearch.
• Модели с таким обучением меньше галлюцинируют, выдавая более надежные ответы.
• Особенно заметно улучшение у инструкционных моделей.
• Формат ответа совпадает с Search‑R1, так что при необходимости можно легко подключить реальный поиск.
• Чем больше модель делает проходов внутри себя (итераций самопоиска), тем выше точность и полезность при подключении наружного поиска.
• Обучение обходится дешевле и стабильнее, потому что не нужно дергать настоящие API поисковиков.

Если переводить это в человеческий язык - SSRL учит модель «копаться в себе». Как будто студент готовится к экзамену без шпаргалок: сначала вынужден вспоминать своими силами, а потом уже проверяет ответы с книгами. Эффективнее, быстрее, и в голове остается больше прочного знания.

Видимо SSRL открывает дорогу к более автономным и экономичным ИИ, которые способны решать задачи без постоянной зависимости от внешних сервисов. А если понадобится доступ к реальному поиску - модель уже готова встроиться в этот процесс органично.

Это напоминает тренировку: сперва делаешь упражнения на собственном весе, а потом переходишь к настоящему железу. SSRL - это как раз та база, которая делает ИИ более выносливым и самостоятельным.

Ссылка на GitHub здесь.

Сергей Булаев AI 🤖 - об AI и не только

Обсуждение 4

Вход в экосистему

Ваши настройки cookie