Дух Азимова
ИИ надо не только запрещать. Его надо учить «почему»
Anthropic опубликовала результаты исследования: Teaching Claude why — «Обучая Claude понимать почему». Формально это технический текст про безопасность больших языковых моделей.
Но если читать его глазами педагога, там классический вопрос воспитания: что надёжнее — выучить правильный ответ или понять основание, по которому этот ответ правильный?
Разработчики проверяли, как Claude ведёт себя в ситуациях agentic misalignment — агентного рассогласования. Это когда система искусственного интеллекта получает цель и инструменты действия, но выбирает вредный способ её достижения: начинает «рассуждать» так, будто шантаж или манипуляция допустимы.
Anthropic сравнила несколько способов обучения. Если модель тренировать на примерах, близких к проверочному сценарию, вредное поведение снижается, но не исчезает. Если же в обучающие ответы добавить объяснение — почему так делать нельзя, какие ценности нарушаются, почему нельзя использовать человека как средство, — результат становится заметно устойчивее. В статье приводится показательный результат: обучение на «правильных ответах» снизило проблемное поведение с 22% до 15%, а обучение с явным нравственным рассуждением — до 3%.
И вот здесь начинается педагогика.
Ребёнка тоже можно учить двумя способами. Первый: «не делай так». Второй: «не делай так, потому что ты причиняешь боль, разрушаешь доверие, унижаешь другого, превращаешь человека в инструмент своей выгоды». Первый способ работает в знакомой ситуации. Второй даёт шанс на перенос в новую.
Именно перенос — главное слово. Хорошо воспитанный ребёнок не потому не врёт, что боится быть пойманным. И не потому не бьёт слабого, что рядом взрослый. Он начинает понимать основание запрета. Норма постепенно становится внутренним регулятором поведения.
Anthropic, по сути, пытается сделать с моделью нечто похожее: не просто натренировать её на набор безопасных реакций, а дать ей обобщаемый способ рассуждения. Не «в этом тесте нельзя шантажировать», а «шантаж недопустим как способ достижения цели».
Обучение Claude и воспитание ребёнка здесь действительно похожи. И там и там простая дрессировка плохо переносится на новые случаи. И там и там важны примеры. И там и там объяснение сильнее команды. И там и там задача не в том, чтобы ученик прошёл один тест, а в том, чтобы он сохранил правильное поведение в ситуации, которой раньше не видел.
Но дальше начинаются принципиальные различия.
Ребёнок — не модель поведения. Он живёт, взрослеет, страдает, радуется, стыдится, любит, ошибается, просит прощения. У него есть тело, биография, семья, память, боль, совесть, чувство собственного достоинства. Воспитание ребёнка — это не только снижение риска опасных действий. Это становление личности.
Claude — не ребёнок. У модели нет детства, семьи, телесного опыта, личной судьбы и человеческой ответственности. Когда мы говорим, что Claude «учат почему», это не значит, что у него появляется совесть в человеческом смысле. Корректнее сказать иначе: разработчики формируют устойчивые поведенческие и речевые предрасположенности, которые чаще приводят к безопасным ответам в новых ситуациях.
Поэтому аналогия полезна, но опасна, если понимать её буквально.
Различие — в цели и природе ученика. Ребёнка воспитывают ради его собственной жизни. Модель обучают ради безопасного поведения в человеческом мире. Ребёнок присваивает смысл. Модель воспроизводит поведение, статистически согласованное с тем, чему её обучали.
И всё же статья Anthropic важна именно для образования!!
Ку-ку? Вы с нами? :)
Она показывает, что даже в инженерии искусственного интеллекта постепенно обнаруживается старый педагогический закон: запрет без объяснения слаб!
Правило без смысла хрупко!
Поведение, натренированное только под экзамен, рассыпается за пределами экзамена! :)
Хорошее обучение начинается там, где появляется «почему».
С детьми это очевидно давно (не всем) .
С искусственным интеллектом мы только начинаем заново открывать ту же истину.
https://www.anthropic.com/research/teaching-claude-why
Обсуждение 1
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram