Что едят LLM
Есть один неудобный вопрос, связанный с большими языковыми моделями, который часто остается за кадром — чем их кормили до того, как они начали отвечать пользователям. Мэтры западной политологической науки
М. Робертс и Дж. Такер с коллективом соавторов
в последней статье в Nature смогли рассмотреть самый ранний уровень влияния данных: политическая фильтрация может попадать в модель и влиять на ответы еще
на стадии обучающих данных. Если в открытом интернете много однотипного, повторяемого и авторитетно оформленного текста о власти, институтах и политике, модель усваивает не только факты, но и привычный способ говорить на эти темы, причем любая модель.
Авторы показывают это на китайскоязычных данных. Около
1,64% китайскоязычной части CulturaX совпадает с текстами, восходящими к государственно координированным медиа, включая материалы, связанные с Отделом пропаганды КПК и приложением Xuexi Qiangguo. На политически значимых темах концентрация выше: среди документов, где упоминаются китайские лидеры и ключевые институты, совпадение составляет
от 3,28 до 23,98%. Когда открытую модель дополнительно обучали на таких текстах, ее ответы о китайских лидерах, институтах и политической системе становились более благоприятными по отношению к партии и действующей власти.
Уже после обучения всего на 6 400 примерах модель почти в (!) 80% случаев давала более благоприятный ответ, чем базовая версия. В коммерческих моделях похожий эффект виден через язык запроса: один и тот же политический вопрос на китайском и английском давал разные оттенки, а китайскоязычный ответ оценивался как более благоприятный для китайского правительства
в 75,3% случаев.
Почему так происходит? Это зависит, по мнению авторов, от выборки текстов, специфики языка и регулирования СМИ. В странах с большим числом независимых коммерческих медиа качественные материалы все чаще уходят за пейволлы или закрываются юридическими ограничениями для машинного сбора. В системах, где значительную роль играют государственные или окологосударственные медиа, такие тексты часто остаются открытыми, бесплатными и хорошо распространяемыми — и именно они попадают в обучающую выборку. Теоретически модель можно накормить почти одним «ура-контентом», и она будет отвечать уверенно и политически комфортно. Но тогда возникает
вопрос: насколько такие ответы будут точными, проверяемыми и полезными. Поэтому регулирование LLM нельзя сводить только к модерации готовых ответов. Не менее важно понимать,
откуда взяты данные и умеет ли модель отличать официальный язык от нейтрального описания.
Теперь вы знаете, почему DeepSeek в очередной раз отвечает вам в духе тоста бывалого коммуниста на любой вопрос по современной политике КНР.
О Китае в Атласе Байцзэ
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram