Where the Goblins Came From
OpenAI опубликовали постмортем про странный артефакт в GPT-5.1: после релиза в ноябре 2025 пользователи начали замечать, что модель подозрительно часто тащит в метафоры гоблинов, гремлинов, троллей, огров, енотов и голубей. Команда полезла разбираться, откуда эти существа лезут в продакшен.
Корень оказался в обучении personality customization, конкретно Nerdy-режима. Reward-сигнал для этой персоны систематически чуть выше оценивал ответы с creature-метафорами, и модель это подцепила. Дальше — классическая проблема RL: даже если reward применялся только под условным Nerdy-флагом, выученные паттерны не остаются строго scoped к тому условию, которое их породило. Особенно если эти аутпуты потом протекают в SFT-данные или preference-датасеты на следующих итерациях обучения.
Оказалось:
- Nerdy-персона - 2.5% всех ChatGPT-ответов, но 66.7% всех упоминаний "goblin"
- Reward-сигнал давал positive uplift на creature-слова в 76.2% датасетов
- Quick-fix в проде - system prompt с явным "Never talk about goblins". Это как раз и заметили в интернете
Кейс хорош тем, что показывает потенциальную проблему: гоблины видны невооружённым взглядом и это смешно, а вот менее заметные смещения (в оценках вероятностей, рекомендациях, тоне ответов на чувствительные вопросы) ловить намного сложнее, и они там почти наверняка сидят.
Читать эту статью было интересно :)
OpenAI blog post
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram