Boxer: модель для подъема 2D-детекций в 3D.
У
WildDet3D от Института Аллена появился сосед по задаче: Reality Labs корпорации Марка Цукерберга
опубликовала проект с той же целью - перевести 2D-детекции в 3D, но с иным профилем возможностей и открытости.
Boxer - более узкий, но геометрически более строгий инструмент для indoor-сценариев с трекингом и фузией.
Пайплайн трехступенчатый:
детектор OWLv2 находит объекты в кадре;
BoxerNet с DINOv3 под капотом через кросс-внимание поднимает каждую 2D-рамку в 3D, опираясь на внутренние параметры камеры, направление гравитации и глубину;
детекции между кадрами либо сливаются офлайн через венгерский алгоритм, либо ведутся онлайн-трекером.
В отличие от WildDet3D, Boxer работает с видеопоследовательностями: ему нужны 6-DoF позы каждого кадра, гравитация и калибровка.
Взамен он дает то, чего у WildDet3D нет: согласованные сценовые 3D-боксы на уровне всей сцены и онлайн-трекинг с сохранением идентичности объектов.
Boxer поставляется как inference-решение: авторы не планируют выкладывать код обучения и оценки, объясняя это нежеланием тянуть долгосрочную поддержку.
В
репозитории - только скрипты запуска и загрузчики датасетов Project Aria (Gen 1 и 2), CA-1M, SUN-RGBD и ScanNet.
Boxer запускается на macOS и Linux. Windows официально не поддерживается

Лицензирование: CC-BY-NC-4.0 License.
Страница проекта
Модель
Arxiv
GitHub
@ai_machinelearning_big_data
#AI #ML #CV #Detection #Boxer #RealityLabs
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram