ПДС (@politicalds): 🇺🇳 Большие языковые модели делают инженеры. Поэтому основные тесты, на которых проверяется…

�� Большие языковые модели делают инженеры. Поэтому основные тесты, на которых проверяется их качество, - математика и программирование. На этих же задачах они лучше всего работают.

UNBench - первый бенчмарк (GitHub), заточенный под МО, основанный на голосовании в Совбезе ООН. Задачи, по которым идёт проверка моделей:
1. Оценка выбора соавторов.
2. Оценка голосования.
3. Оценка того, будет ли проект резолюции принят.
4. Оценка сгенерированного заявления представителей членов СБ.

#пдс_датасет

ПДС

642

Political Data Science - ПДС.

Датасеты, методы, хэндбуки и авторская дата-аналитика от субколлектива МГИМО-ИМИшников

Обратная связь: @politicalds_feedback_bot

Data Science
♥️
Political Science and International Relations

Обсуждение 0

Пожаловаться

Обсуждение 0

Вход в экосистему

Ваши настройки cookie