avatar
Андрей Созыкин
Переслано от канала
08.08.2024 07:07
Очень классный туториал с недавнего ICML: Physics of Language Models.

Я бы даже сказала, что это не туториал, а довольно большая работа по LLM explainability. Конкретнее, авторы хотят приблизиться к ответу на вопросы "где находится и как устроен intelligence у LLM" и "что делать, чтобы intelligence усилить, т.е. подойти ближе к AGI".

Подход у них довольно интересный. Авторы делят intelligence на три категории:
- Language structures. Это о том, как LLM выучивает сложную структуру языка. Т.е. какие механизмы в этом задействованы и как идейно происходит обработка текста;
- Reasoning. Это про способность LLM к рассуждениям, выводам и аргументации;
- Knowledge. Как устроено хранение информации в LLM, как ей манипулировать и как объем информации, которую вмещает LLM, зависит от количества ее параметров.

Изучать это все предлагают следующим образом: давайте для каждой категории сгенерируем синтетические данные с заранее известными свойствами, на которых будем обучать LLM и смотреть, как LLM эти свойства выучивает. К примеру, для language structures авторы предложили сгенерировать датасет семейства контекстно-свободных грамматик со сложной структурой (более сложной, чем у обычных английских текстов). Обучая модель на таких данных авторы смотрят на то, что происходит внутри модели (например, какие паттерны attention активируются) и делают выводы о том, каким образом, каким алгоритмом LLM обрабатывает язык.

В посте ниже опишу общие выводы, которые авторы делают из своей работы. А вот ссылки на видео/статьи туториала:
Сайт
Part 1: Hierarchical Language Structures:
- Видео;
- Статья на arxiv;
Part 2: Grade-School Math:
- Видео будет тут после 20 августа;
- Статьи на arxiv: часть 1, часть 2 обещают вот-вот;
Part 3: Knowledge:
- Видео;
- Статьи на arxiv: часть 1, часть 2, часть 3
🔥 6
👍 2
2 10 1.7K

Обсуждение 2

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram