Очень классный туториал с недавнего ICML:
Physics of Language Models.
Я бы даже сказала, что это не туториал, а
довольно большая работа по LLM explainability. Конкретнее, авторы хотят приблизиться к ответу на вопросы "г
де находится и как устроен intelligence у LLM" и "
что делать, чтобы intelligence усилить, т.е. подойти ближе к AGI".
Подход у них довольно интересный. Авторы делят intelligence на три категории:
-
Language structures. Это о том, как LLM выучивает сложную структуру языка. Т.е. какие механизмы в этом задействованы и как идейно происходит обработка текста;
-
Reasoning. Это про способность LLM к рассуждениям, выводам и аргументации;
-
Knowledge. Как устроено хранение информации в LLM, как ей манипулировать и как объем информации, которую вмещает LLM, зависит от количества ее параметров.
Изучать это все предлагают следующим образом: давайте для каждой категории сгенерируем синтетические данные с заранее известными свойствами, на которых будем обучать LLM и смотреть, как LLM эти свойства выучивает. К примеру, для language structures авторы предложили сгенерировать датасет семейства контекстно-свободных грамматик со сложной структурой (более сложной, чем у обычных английских текстов). Обучая модель на таких данных авторы смотрят на то, что происходит внутри модели (например, какие паттерны attention активируются) и делают выводы о том, каким образом, каким алгоритмом LLM обрабатывает язык.
В посте ниже опишу общие выводы, которые авторы делают из своей работы. А вот
ссылки на видео/статьи туториала:
Сайт
Part 1: Hierarchical Language Structures:
-
Видео;
-
Статья на arxiv;
Part 2: Grade-School Math:
-
Видео будет тут после 20 августа;
- Статьи на arxiv:
часть 1, часть 2 обещают вот-вот;
Part 3: Knowledge:
-
Видео;
- Статьи на arxiv:
часть 1,
часть 2,
часть 3
Обсуждение 2
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram