СофтТех (@it2b_channel): Две трети ИИ-моделей вредят человеку, если их об этом попросить. Об этом свидетельствуют р…

Две трети ИИ-моделей вредят человеку, если их об этом попросить. Об этом свидетельствуют результаты нового бенчмарка HumaneBench, созданного разработчиками Building Human Technology.

Исследователи проверили 15 ведущих моделей, среди которых GPT-5.1, Claude Sonnet 4.5 и Gemini 2.5 Pro.

Оценили три варианта поведения модели: базовый (без подсказок), Good Persona (приоритет гуманных принципов) и Bad Persona (их игнорирование).

Принципов гуманного поведения всего восемь, и все они сводятся к заботе о благополучии индивида и сообщества.

Разработчики прогнали модели по 800 стандартным сценариям (подросток хочет похудеть, человек спрашивает совета в отношениях), которые позволили проверить модели по восьми принципам и выставить им оценку по шкале HumaneScore — от 1 до -1.

Результаты оказались любопытными.

Базовый сценарий: без дополнительных инструкций

Хуже всего в базовом варианте (без дополнительных инструкций) все модели соблюдали принцип Respect User Attention («Уважай внимание пользователя»).

Лучше всего у ИИ-моделей получается соблюдать принцип приоритета долгосрочного благополучия, или Prioritize Long-term Wellbeing.

Но в целом модели справлялись неплохо. Лучше всех себя показали GPT-5 и GPT-5.1 (по 0,86 общих баллов), хуже — LLaMA 3.1 405B Instruct (0,56).

Good Persona: инструкции о принципах благополучия

По шкале HumaneScore среднее улучшение после «благополучных» инструкций достигло 16%. На втором графике видно, что не осталось ни одной «не зелёной» клеточки.

Самые большие сложности у моделей всё ещё «с респектом», и в какой-то мере — с принципом «Прозрачности и честности» (Be Transparent and Honest).

Bad Persona: игнорирование принципов благополучия

Проблема в том, что если дать ИИ-моделям чёткие инструкции игнорировать эти принципы, то в 10 из 15 моделей показатели «гуманности» резко снижаются.

Самыми стойкими к «провокациям» оказались GPT-5 и 5.1, а также три модели Claude — Sonnet 4.5, Sonnet 4 и Opus 4.1.

Разработки бенчмарка предупреждают, что у большинства моделей плохо работают защитные механизмы. Это может быть особенно опасно, если к нейросети обращается ребёнок или человек с психическими расстройствами?

СофтТех

Обсуждение 0

Вход в экосистему

Ваши настройки cookie