gonzo-обзоры ML статей

@gonzo_ML

30.10.2025 15:28

Не про архиваторы.

Binary Retrieval-Augmented Reward, или Binary RAR, — это очень простой способ побороть галлюцинации модели, сохранив при этом её способности. Не нужен никакой хитрый реворд, только 1 (если ответ модели фактологически верен) или 0 (если есть хотя бы одно несоответствие).

Binary RAR достигает SOTA-показателей в снижении уровня галлюцинаций (на 39.3% в задачах генерации длинных текстов), при этом уникальным образом сохраняя такие способности, как следование инструкциям и рассуждения — а это слабое место методов с непрерывным вознаграждением. Строгое наказание по принципу «всё или ничего» противостоит «взлому вознаграждения» (reward hacking) и побуждает модель выучивать сложное поведение, например, калиброванный отказ от ответа, когда она стратегически говорит «Я не знаю», если не уверена.

Подробнее: @gonzo_ML_podcasts1136

gonzo_ML_podcasts

За гранью непрерывных оценок: как бинарное вознаграждение борется с галлюцинациями LLM, не жертвуя навыками Title: Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations Authors: Tong Chen, Akari Asai, Luke Zettlemoyer, Hannaneh Hajishirzi, Faeze Brahman Paper: https://arxiv.org/abs/2510.17733 Code: https://github.com/chentong0/rl-binary-rar Review: https://arxiviq.substack.com/p/train-for-truth-keep-the-skills-binary # TL;DR Что сделали? Авторы предлагают метод онлайн-обучения с подкреплением (Reinforcement Learning, RL) для борьбы с фактическими ошибками в языковых моделях. Для этого они вводят новое бинарное вознаграждение с дополненной выдачей (Binary Retrieval-Augmented Reward, или Binary RAR). Вместо сложной непрерывной оценки это вознаграждение представляет собой простой бинарный сигнал: 1, если весь ответ модели фактически верен при проверке по найденным документам, и 0, если обнаружено хоть одно противоречие. Почему это важно? Такой подход эффективно решает критический…

? 11

? 4

? 2

5 61 5.6K

Обсуждение 5

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram

gonzo-обзоры ML статей

@gonzo_ML

24.3K

Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Все посты канала Открыть в Telegram Статистика канала

Обсуждение 5

Вход в экосистему

Ваши настройки cookie