avatar
Data, Stories and Languages
@datastorieslanguages
30.04.2026 12:50
Where the Goblins Came From

OpenAI опубликовали постмортем про странный артефакт в GPT-5.1: после релиза в ноябре 2025 пользователи начали замечать, что модель подозрительно часто тащит в метафоры гоблинов, гремлинов, троллей, огров, енотов и голубей. Команда полезла разбираться, откуда эти существа лезут в продакшен.

Корень оказался в обучении personality customization, конкретно Nerdy-режима. Reward-сигнал для этой персоны систематически чуть выше оценивал ответы с creature-метафорами, и модель это подцепила. Дальше — классическая проблема RL: даже если reward применялся только под условным Nerdy-флагом, выученные паттерны не остаются строго scoped к тому условию, которое их породило. Особенно если эти аутпуты потом протекают в SFT-данные или preference-датасеты на следующих итерациях обучения.

Оказалось:
- Nerdy-персона - 2.5% всех ChatGPT-ответов, но 66.7% всех упоминаний "goblin"
- Reward-сигнал давал positive uplift на creature-слова в 76.2% датасетов
- Quick-fix в проде - system prompt с явным "Never talk about goblins". Это как раз и заметили в интернете

Кейс хорош тем, что показывает потенциальную проблему: гоблины видны невооружённым взглядом и это смешно, а вот менее заметные смещения (в оценках вероятностей, рекомендациях, тоне ответов на чувствительные вопросы) ловить намного сложнее, и они там почти наверняка сидят.

Читать эту статью было интересно :)

OpenAI blog post
OpenAI
Where the goblins came from
How goblin outputs spread in AI models: timeline, root cause, and fixes behind personality-driven quirks in GPT-5 behavior.
😁 10
5
👍 2
22 1.4K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram