Новый инструмент для проверки способностей роботов работать по неоднозначным инструкциям
Исследователи AIRI и МФТИ при поддержке Центра робототехники Сбера представили набор данных
AmbiK, созданный для оценки действий систем в неоднозначных условиях. Для этого авторы собрали текстовый датасет, включающий две тысячи задач с разметкой по типу неоднозначности для действий на кухне. Сейчас это самый большой набор данных в своей предметной области — существующие аналоги насчитывают лишь порядка 600 примеров.
Эксперименты с датасетом показали, что существующие алгоритмы пока недостаточно эффективно справляются с распознаванием ситуаций, требующих уточнения: даже лучшие модели демонстрируют успешный результат лишь в 20% случаев. Кроме того, AmbiK позволяет выяснить, на каком этапе плана возникает неопределённость.
Исследование было представлено на конференции ACL 2025 в Вене. Подробнее —
в материале ТАСС.
Научная статья
| GitHub
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram