avatar
(sci)Berloga Всех Наук и Технологий
Переслано от канала
09.12.2024 21:19
https://arxiv.org/abs/2412.04529

Саша с Антоном опубликовали классную статью про CAFA5! А я в соавторах. Много умных слов и понятных картинок. Год назад мы участвовали в соревновании на kaggle, в котором надо было определить функции белка по его аминокислотному составу и таксономии. Соревнование отличалось высоким порогом входа, поскольку таргеты, коих было десятки тысяч, были организованы иерархически и метрика расчитывалась пропагацией по этому дереву. Отдельно стоит отметить разметку, где 1 означала наличие функции у белка, но 0 не означал, что функции нет, она просто еще не была обнаружена, возможно.

Мы заняли 2 место 🎉, уступив профессионалам в области, которые в том числе парсили выходящие во время соревнования статьи про новые экспериментально обнаруженные функции белков. Последующее тестирование решений на еще более свежих данных подтвердило, что распределение мест не было случайностью. Организаторы соревнования настоящие ученые, измерили множество метрик и провели полноценное исследование полученных решений.

В статье показываем подход ProtBoost, в основе которого Py-Boost, линейки и mlp, а так же графовые нейросетки в качестве умного ансамбля (помните про иерархические таргеты?). В качестве признаков эмбединги последовательностей и мета-информация о происхождении белка. Обнаружили, что не все эмбединги одинаково полезно и хайпово не значит лучше.

Соревнования шло 3 месяца, а статья выходит спустя год. Это вам не бустинги стекать 🙈

Из каггл-выводов:
* pyboost хорош, особо хорош, когда таргетов много и бустинги в принципе можно успешно применять на эмбедингах.
* GCN стекер можно применять не только здесь.
* иногда ошибки приводят к интересным открытиям, перепутав айдишники моделей, получили интересную аугментацию.
* если соревнование про науку, то где-то в интернете хранятся разные полезные датасеты и код, но коду организаторов слепо верить не стоить
arXiv.org
ProtBoost: protein function prediction with Py-Boost and Graph...
Predicting protein properties, functions and localizations are important tasks in bioinformatics. Recent progress in machine learning offers an opportunities for improving existing methods. We...
👍 28
🔥 9
4
38 3.4K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram