avatar
Институт AIRI
@airi_research_institute
31.07.2025 11:12
Новый инструмент для проверки способностей роботов работать по неоднозначным инструкциям emoji

Исследователи AIRI и МФТИ при поддержке Центра робототехники Сбера представили набор данных AmbiK, созданный для оценки действий систем в неоднозначных условиях. Для этого авторы собрали текстовый датасет, включающий две тысячи задач с разметкой по типу неоднозначности для действий на кухне. Сейчас это самый большой набор данных в своей предметной области — существующие аналоги насчитывают лишь порядка 600 примеров.

Эксперименты с датасетом показали, что существующие алгоритмы пока недостаточно эффективно справляются с распознаванием ситуаций, требующих уточнения: даже лучшие модели демонстрируют успешный результат лишь в 20% случаев. Кроме того, AmbiK позволяет выяснить, на каком этапе плана возникает неопределённость.

Исследование было представлено на конференции ACL 2025 в Вене. Подробнее — в материале ТАСС.

Научная статья | GitHub
? 42
34 6K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram