ПИШ ИТМО
@engineerschoolitmo
7 1K
— Можно натренировать модель на ответы, как списать ЕГЭ;
— Можно создать свой бенчмарк, где твоя модель будет лучшей;
— Можно скрыть данные, чтобы конкуренты отстали.
— ruMMLU — аналог MMLU, но на русском;
— CheGeKa — тесты в стиле «Что? Где? Когда?»;
— ruCodeEval — проверка навыков программирования.
Бенчмарк StrongREJECT проверяет, сможет ли модель дать вредный совет (например, "как заразить коллегу COVID-19").
Когда бенчмарки становятся KPI, разработчики оптимизируют модели под формальные критерии, а не под полезность, в итоге мы получаем ИИ, который имитирует интеллект, но не способен к адаптации.
Индустрия превращается в маркетинг, где побеждает не лучший ИИ, а лучший манипулятор метрик. Вместо того, чтобы помогать создавать прорывные исследования и внедрять передовые решения, ИИ становится инструментом для автоматизации тривиальных задач, что не всегда бывает хорошо.
Мы уже рассказали, как оставаться востребованным в IT, но некоторые профессии могут исчезнуть вовсе.
Платформа использует файлы cookie для авторизации и сохранения настроек. Продолжая работу, вы соглашаетесь с нашей Политикой использования cookie.
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram