15.12.2025 10:54
���� Большие языковые модели делают инженеры. Поэтому основные тесты, на которых проверяется их качество, - математика и программирование. На этих же задачах они лучше всего работают.

UNBench - первый бенчмарк (GitHub), заточенный под МО, основанный на голосовании в Совбезе ООН. Задачи, по которым идёт проверка моделей:
1. Оценка выбора соавторов.
2. Оценка голосования.
3. Оценка того, будет ли проект резолюции принят.
4. Оценка сгенерированного заявления представителей членов СБ.

#пдс_датасет
arXiv.org
Benchmarking LLMs for Political Science: A United Nations Perspective
Large Language Models (LLMs) have achieved significant advances in natural language processing, yet their potential for high-stake political decision-making remains largely unexplored. This paper...
🔥 4
4 300

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram