Data, Stories and Languages (@datastorieslanguages): Where the Goblins Came From OpenAI опубликовали постмортем про странный артефакт в GPT-5.1…

Where the Goblins Came From

OpenAI опубликовали постмортем про странный артефакт в GPT-5.1: после релиза в ноябре 2025 пользователи начали замечать, что модель подозрительно часто тащит в метафоры гоблинов, гремлинов, троллей, огров, енотов и голубей. Команда полезла разбираться, откуда эти существа лезут в продакшен.

Корень оказался в обучении personality customization, конкретно Nerdy-режима. Reward-сигнал для этой персоны систематически чуть выше оценивал ответы с creature-метафорами, и модель это подцепила. Дальше — классическая проблема RL: даже если reward применялся только под условным Nerdy-флагом, выученные паттерны не остаются строго scoped к тому условию, которое их породило. Особенно если эти аутпуты потом протекают в SFT-данные или preference-датасеты на следующих итерациях обучения.

Оказалось:
- Nerdy-персона - 2.5% всех ChatGPT-ответов, но 66.7% всех упоминаний "goblin"
- Reward-сигнал давал positive uplift на creature-слова в 76.2% датасетов
- Quick-fix в проде - system prompt с явным "Never talk about goblins". Это как раз и заметили в интернете

Кейс хорош тем, что показывает потенциальную проблему: гоблины видны невооружённым взглядом и это смешно, а вот менее заметные смещения (в оценках вероятностей, рекомендациях, тоне ответов на чувствительные вопросы) ловить намного сложнее, и они там почти наверняка сидят.

Читать эту статью было интересно :)

OpenAI blog post

Обсуждение 0

Вход в экосистему

Ваши настройки cookie