Ксенопсихологи из Anthropic всерьез занялись перевоспитанием трудных ИИ-подростков 🙂
Они выпустили очередное исследование неподобающего поведения моделей — и в нем вполне нетривиальны и результаты, и выводы.
Казалось бы, соображение “что заложили, то и получили” давно известно, но исследователи поглубже копнули причины иногда возникающего агрессивно-негативного поведения моделей в специально спроектированных тестах.
Оказалось, что из двух гипотез:
1. В ходе post-training ошибочно поощряется неправильное поведение
2. Причина безобразий кроется в изначальном обучении, и post-training оказывается неспособен кардинально переучить модель
— верна вторая.
Оказалось, что традиционный RLHF в виде чата с человеком-тренером уже недостаточен для агентских моделей. И тут как раз приходит на помощь конституция Клода, потому что она обучает этичным рассуждениям в процессе поиска решения, а не просто этичным ответам: на каждый конкретный случай примеров хороших ответов не напасешься. Важней учить причинам и принципам правильности ответа, а не самим верным ответам: although training on aligned behaviors helps, training on examples where the assistant displays admirable reasoning for its aligned behavior works better. А вот неправильных ответов, описывающих поведение злобного ИИ, в обучающих данных навалом: такими сюжетами, в том числе литературными, увы, интернет давно полнится, и модели все это впитывают по ходу обучения.
В итоге:

We found that high-quality constitutional documents combined with fictional stories portraying an aligned AI can reduce agentic misalignment by more than a factor of three despite being unrelated to the evaluation scenario.


Обратите внимание на прекрасный заголовок поста:)

https://www.anthropic.com/research/teaching-claude-why
Anthropic
Teaching Claude why
New research on how we've reduced agentic misalignment
49
👍 12
🔥 5
103 9K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram