ПДС (@politicalds): Дух Азимова ИИ надо не только запрещать. Его надо учить «почему» Anthropic опубликовала р…

Дух Азимова

ИИ надо не только запрещать. Его надо учить «почему»

Anthropic опубликовала результаты исследования: Teaching Claude why — «Обучая Claude понимать почему». Формально это технический текст про безопасность больших языковых моделей.

Но если читать его глазами педагога, там классический вопрос воспитания: что надёжнее — выучить правильный ответ или понять основание, по которому этот ответ правильный?

Разработчики проверяли, как Claude ведёт себя в ситуациях agentic misalignment — агентного рассогласования. Это когда система искусственного интеллекта получает цель и инструменты действия, но выбирает вредный способ её достижения: начинает «рассуждать» так, будто шантаж или манипуляция допустимы.

Anthropic сравнила несколько способов обучения. Если модель тренировать на примерах, близких к проверочному сценарию, вредное поведение снижается, но не исчезает. Если же в обучающие ответы добавить объяснение — почему так делать нельзя, какие ценности нарушаются, почему нельзя использовать человека как средство, — результат становится заметно устойчивее. В статье приводится показательный результат: обучение на «правильных ответах» снизило проблемное поведение с 22% до 15%, а обучение с явным нравственным рассуждением — до 3%.

И вот здесь начинается педагогика.

Ребёнка тоже можно учить двумя способами. Первый: «не делай так». Второй: «не делай так, потому что ты причиняешь боль, разрушаешь доверие, унижаешь другого, превращаешь человека в инструмент своей выгоды». Первый способ работает в знакомой ситуации. Второй даёт шанс на перенос в новую.

Именно перенос — главное слово. Хорошо воспитанный ребёнок не потому не врёт, что боится быть пойманным. И не потому не бьёт слабого, что рядом взрослый. Он начинает понимать основание запрета. Норма постепенно становится внутренним регулятором поведения.

Anthropic, по сути, пытается сделать с моделью нечто похожее: не просто натренировать её на набор безопасных реакций, а дать ей обобщаемый способ рассуждения. Не «в этом тесте нельзя шантажировать», а «шантаж недопустим как способ достижения цели».

Обучение Claude и воспитание ребёнка здесь действительно похожи. И там и там простая дрессировка плохо переносится на новые случаи. И там и там важны примеры. И там и там объяснение сильнее команды. И там и там задача не в том, чтобы ученик прошёл один тест, а в том, чтобы он сохранил правильное поведение в ситуации, которой раньше не видел.

Но дальше начинаются принципиальные различия.

Ребёнок — не модель поведения. Он живёт, взрослеет, страдает, радуется, стыдится, любит, ошибается, просит прощения. У него есть тело, биография, семья, память, боль, совесть, чувство собственного достоинства. Воспитание ребёнка — это не только снижение риска опасных действий. Это становление личности.

Claude — не ребёнок. У модели нет детства, семьи, телесного опыта, личной судьбы и человеческой ответственности. Когда мы говорим, что Claude «учат почему», это не значит, что у него появляется совесть в человеческом смысле. Корректнее сказать иначе: разработчики формируют устойчивые поведенческие и речевые предрасположенности, которые чаще приводят к безопасным ответам в новых ситуациях.

Поэтому аналогия полезна, но опасна, если понимать её буквально.

Различие — в цели и природе ученика. Ребёнка воспитывают ради его собственной жизни. Модель обучают ради безопасного поведения в человеческом мире. Ребёнок присваивает смысл. Модель воспроизводит поведение, статистически согласованное с тем, чему её обучали.

И всё же статья Anthropic важна именно для образования!!

Ку-ку? Вы с нами? :)

Она показывает, что даже в инженерии искусственного интеллекта постепенно обнаруживается старый педагогический закон: запрет без объяснения слаб!

Правило без смысла хрупко!

Поведение, натренированное только под экзамен, рассыпается за пределами экзамена! :)

Хорошее обучение начинается там, где появляется «почему».

С детьми это очевидно давно (не всем) .

С искусственным интеллектом мы только начинаем заново открывать ту же истину.

https://www.anthropic.com/research/teaching-claude-why

Обсуждение 1

ПДС

Пожаловаться

Обсуждение 1

ПДС

Вход в экосистему

Ваши настройки cookie