Курган, городище, аномалия или ничего: как учить нейросети для конкурса «Экспедиция. Data Science»
Идёт приём заявок на КОЗ №2 «Сканирование». Задача участников: создать ИИ-решение, которое сможет находить археологические объекты в рельефе и под землёй по данным от разных сенсоров.
Чем больше у нейросети видов информации, тем больше шансов найти закономерности, незаметные для людей. Поэтому организаторы подготовили массив из лидарных данных, аэрофотосъёмки, магнитометрии и не только. Для анализа такой ценного, но разрозненного объёма, нужен целый комплекс технологий.
Какие инструменты в руках участников, а также какие подходы в приоритете для лучшего результата — рассказывают наши коллеги — эксперты по работе с данными (Data Science).
Сегментационные модели U-Net/DeepLab
Специализированные узкие архитектуры, могут точно определить форму фундамента или рва. Однако ошибутся, если объект не похож на выборку, поэтому для обучения нужно много данных. Идеальны для магнитометрии и лидарных точек.
Модель обнаружения объектов YOLO
Быстро ищет тысячи объектов, но задаёт грубые границы и захватывает много фона. Найдёт все потенциальные курганы на спутниковом снимке города, чтобы ничего не упустить. Лучший выбор для скоростного «поиска кандидатов».
Универсальная модель сегментации (SAM)
Обучена на миллиардах изображений всего на свете и может идентифицировать почти любой объект. При этом училась на массе «лишних» данных и требует больших мощностей. Идеально уточняет границ найденных объектов.
Мультимодальные модели (VLM)
Например, GPT-4o или Gemini. Понимают и картинки, и текст. По текстовому запросу найдут курганы и объяснят свои решения, но склонны выдумывать объекты и плохо работают с гео-форматом TIFF. Пока не пригодны для потоковой обработки.
А как объединить данные для верных итоговых решений? Вот главные подходы.
Раннее слияние
Взять аэрофото, точки лидара и магнитометрию — и выровнять, чтобы 1 пиксель на всех картах был «равен» одной и той же точке на земле. Модель сразу увидит корреляции: горячо и высоко — значит курган. Требует идеального выравнивания и подходит для данных, которые можно привести к одной сетке.
Глубокое слияние
Несколько нейросетей работают каждая над своим типом данных. Например, одна извлекает признаки текстуры из аэрофото, другая добывает геометрию из облаков точек лидара. В середине сети векторы признаков смешиваются, а модель выдаёт надёжный результат. Лучшее из обоих миров, но сложно обучать.
Позднее слияние
Несколько независимых моделей изучают разные типы данных и оценивают вероятность объекта. Решение принимают по средней арифметической. Подход игнорирует сложные связи, но уместен, когда данные приходят из разных источников в разное время.
Мы видим лучший исход в первых двух подходах. А что выберут команды конкурса — покажет время.
Подайте заявку на участие на
платформе конкурса!
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram