Не про архиваторы.
Binary Retrieval-Augmented Reward, или
Binary RAR, — это очень простой способ побороть галлюцинации модели, сохранив при этом её способности. Не нужен никакой хитрый реворд, только 1 (если ответ модели фактологически верен) или 0 (если есть хотя бы одно несоответствие).
Binary RAR достигает SOTA-показателей в снижении уровня галлюцинаций (на 39.3% в задачах генерации длинных текстов), при этом уникальным образом сохраняя такие способности, как следование инструкциям и рассуждения — а это слабое место методов с непрерывным вознаграждением. Строгое наказание по принципу «всё или ничего» противостоит «взлому вознаграждения» (reward hacking) и побуждает модель выучивать сложное поведение, например, калиброванный отказ от ответа, когда она стратегически говорит «Я не знаю», если не уверена.
Подробнее:
@gonzo_ML_podcasts1136
Обсуждение 5
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram