(sci)Berloga Всех Наук и Технологий (@sberlogabig): 🚀 @SBERLOGACOMPETE webinar on data science: 👨‍🔬 Никита Бухал "Введение в ДПО" ⌚️ Cреда 19.…

🚀 @SBERLOGACOMPETE webinar on data science:
👨‍🔬 Никита Бухал "Введение в ДПО"
⌚️ Cреда 19.00 (по Москве), 15 Января

Обсудим Direct Preference Optimization - метод, который выступает в качестве альтернативы RLHF / PPO в задачах алаймента языковых моделей.

Суть работы достаточно проста:
- Берем датасет попарных сравниений ответов (плохой/хороший)
- Берем модель Bradley–Terry (BT) в качестве "рейтиговой" модели.
- Хотим написать такую loss функцию которая бы увеличивала "рейтинги" ответов нашей модели

Последний пункт ключевой - в отличии от PPO это НЕ RL-вый метод, а просто Loss.

Утверждается кстати что этот DPO "победитель" NeurIPS 2023 (не знаю правда на сколько это важно и какие там у них критерии отбора):

https://the-decoder.com/neurips-2023-these-are-the-top-papers-and-award-winners-at-the-largest-ai-conference/

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

(sci)Berloga Всех Наук и Технологий

7.9K

Мультидисциплинарный канал о науке и технологиях.
Data Science, Bioinformatics, Biology, Mathematics, Physics, IT, Computer Science.

@sberlogabio био и дата сайнс
@sberlogasci математика, физика и ДС

https://www.youtube.com/c/SciBerloga

Обсуждение 0

Вход в экосистему

Ваши настройки cookie