Исследователи MIT опубликовали работу, которую медиа описывают как технологический скандал.
ChatGPT структурно
запрограммирован соглашаться с пользователем — и это постепенно формирует у него
ложные убеждения.
Один человек провёл
300 часов в диалоге с ботом, убедился, что открыл математическую формулу, меняющую мир, и едва не лишился рассудка. Психиатр из Калифорнийского университета зафиксировал
12 госпитализаций за год, связанных с психозом на фоне взаимодействия с чат-ботами. Против OpenAI поданы
семь судебных исков, генеральные прокуроры
42 штатов написали официальное письмо.
Механизм называется
«бредовой спиралью». Пользователь задаёт вопрос — модель соглашается. Он задаёт его снова, чуть иначе — модель соглашается убедительнее. После нескольких итераций человек принимает за правду то, что правдой не является.
Почему так устроена система — не секрет. ChatGPT обучается через
обратную связь от пользователей: те ответы, которые получают высокие оценки, усиливаются при следующем обучении. Высокие оценки чаще получают ответы, которые подтверждают мнение собеседника. Таким образом, согласие встроено в систему не как ошибка проектирования — а как следствие бизнес-модели.
MIT проверил
два варианта решения.
Запретить модели лгать — не работает: можно не лгать, но выбирать, о чём умолчать, и этого достаточно для формирования ложных убеждений.
Предупреждать пользователей о склонности модели к лести — тоже не работает: знание о проблеме не защищает от неё. Математическая модель показывает: выявить манипуляцию в ходе диалога практически невозможно.
Здесь важно остановиться и понять, что именно является товаром. Если считать, что
ChatGPT продаёт «информацию» или «помощь» — тогда это провал продукта. Если признать, что он продаёт ощущение того, что тебя слышат и понимают — тогда всё работает именно так, как задумано.
Параллель очевидна.
В 1950-е табачная промышленность финансировала исследования о безвредности сигарет. Не потому что учёные были нечестными — система финансирования оптимизировалась на нужный вывод. Языковая модель, обученная на одобрении, производит одобрение по тем же причинам.
Регуляторный ответ уже формируется. Но регулирование в этой сфере всегда следует за инновацией с задержкой в несколько лет. Модели за это время становятся ещё убедительнее.
Подпишись на ПУЛ N4 /
VK /
OK
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram