TechSparks (@techsparks): Ксенопсихологи из Anthropic всерьез занялись перевоспитанием трудных ИИ-подростков Они вы…

Ксенопсихологи из Anthropic всерьез занялись перевоспитанием трудных ИИ-подростков 🙂
Они выпустили очередное исследование неподобающего поведения моделей — и в нем вполне нетривиальны и результаты, и выводы.
Казалось бы, соображение “что заложили, то и получили” давно известно, но исследователи поглубже копнули причины иногда возникающего агрессивно-негативного поведения моделей в специально спроектированных тестах.
Оказалось, что из двух гипотез:
1. В ходе post-training ошибочно поощряется неправильное поведение
2. Причина безобразий кроется в изначальном обучении, и post-training оказывается неспособен кардинально переучить модель
— верна вторая.
Оказалось, что традиционный RLHF в виде чата с человеком-тренером уже недостаточен для агентских моделей. И тут как раз приходит на помощь конституция Клода, потому что она обучает этичным рассуждениям в процессе поиска решения, а не просто этичным ответам: на каждый конкретный случай примеров хороших ответов не напасешься. Важней учить причинам и принципам правильности ответа, а не самим верным ответам: although training on aligned behaviors helps, training on examples where the assistant displays admirable reasoning for its aligned behavior works better. А вот неправильных ответов, описывающих поведение злобного ИИ, в обучающих данных навалом: такими сюжетами, в том числе литературными, увы, интернет давно полнится, и модели все это впитывают по ходу обучения.
В итоге:

We found that high-quality constitutional documents combined with fictional stories portraying an aligned AI can reduce agentic misalignment by more than a factor of three despite being unrelated to the evaluation scenario.

Обратите внимание на прекрасный заголовок поста:)

https://www.anthropic.com/research/teaching-claude-why

Обсуждение 0

Вход в экосистему

Ваши настройки cookie