Исследователи Yandex Research разработали TabM — нейросетевую архитектуру для работы с табличными данными
TabM (от английского Tabular DL model that makes Multiple predictions) — эффективная реализация так называемого ансамбля моделей, когда каждая модель проводит свой анализ, после чего прогноз усредняется. Такая архитектура позволяет добиться оптимального соотношения точности прогноза и необходимых вычислительных мощностей.
Модели для работы с табличными данными помогают быстро обрабатывать большие объёмы информации. Например, оптимизировать поставки, прогнозировать энергопотребление, классифицировать пациентов по риску заболеваний. TabM пригодится везде, где требуется строить высокоточные прогнозы: в бизнесе, исследованиях и медицине.
По результатам тестирования на 46 наборах данных, TabM превзошла другие решения не только по занимаемому в среднем месту (1,7 у TabM против 2,9 у ближайшего конкурента), но и по стабильности работы. Благодаря способности объединять усилия нескольких подмоделей и эффективному использованию вычислительных ресурсов, TabM успешно конкурирует с классическими моделями градиентного бустинга, которые долгое время считались лучшим решением для табличных данных — CatBoost, XGBoost, LightGBM.
Новую архитектуру уже опробовали на Kaggle — платформе международных соревнований по анализу данных и машинному обучению от Google. Участники использовали TabM в том числе для того, чтобы предсказать выживаемость пациентов после трансплантации костного мозга.
Читайте о TabM
на arXiv и пробуйте её
на GitHub.
Подписывайтесь:

�
@Yandex4ML

�
@YandexML
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram