🚀
@SBERLOGACOMPETE webinar on data science:
👨🔬 Никита Бухал "Введение в ДПО"
⌚️ Cреда 19.00 (по Москве), 15 Января
Обсудим Direct Preference Optimization - метод, который выступает в качестве альтернативы RLHF / PPO в задачах алаймента языковых моделей.
Суть работы достаточно проста:
- Берем датасет попарных сравниений ответов (плохой/хороший)
- Берем модель Bradley–Terry (BT) в качестве "рейтиговой" модели.
- Хотим написать такую loss функцию которая бы увеличивала "рейтинги" ответов нашей модели
Последний пункт ключевой - в отличии от PPO это НЕ RL-вый метод, а просто Loss.
Утверждается кстати что этот DPO "победитель" NeurIPS 2023 (не знаю правда на сколько это важно и какие там у них критерии отбора):
https://the-decoder.com/neurips-2023-these-are-the-top-papers-and-award-winners-at-the-largest-ai-conference/
Zoom link will be in
@sberlogabig just before start. Video records:
https://www.youtube.com/c/SciBerloga - subscribe !
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram