avatar
Сергей Булаев AI 🤖
@sergiobulaev
31.03.2025 04:49
Circuit Tracing (Отслеживание нейронных цепей)🧩
#ИИНЦИКЛОПЕДИЯ

Circuit tracing - метод, позволяющий заглянуть в "чёрный ящик" больших языковых моделей и понять, что там происходит, когда модель формирует ответ на наш запрос.
Термин впервые появился в исследовательских кругах OpenAI и Anthropic в 2022-2023 годах, когда стало очевидно, что простого понимания архитектуры LLM недостаточно для объяснения их поведения. Нужен был способ проследить конкретные пути распространения информации внутри моделей.

Почему это важно? Circuit tracing - один из ключевых инструментов в механистической интерпретируемости ИИ, который помогает не просто предсказывать выходные данные модели, а действительно понимать, как она приходит к своим решениям. Это критично для обеспечения безопасности, объяснимости и улучшения LLM.

Ключевые особенности:
- Создаёт замещающую, упрощённую, более понятную версию исходной модели, где сложные слои (MLP) заменяются на более прозрачные компоненты (CLT)
- Строит графы атрибуции, показывающие путь информации через слои нейросети. Узлы графа — это признаки (features), эмбеддинги токенов и ошибки реконструкции
- Обрезает графы, удаляя менее значимые связи и узлы для лучшей понятности
- Позволяет экспериментально проверять гипотезы о работе модели через вмешательство (возбуждение/подавление признаков) в исходную модель


На практике метод уже помог исследователям обнаружить и объяснить несколько интересных феноменов в работе LLM, например, как модели распознают отрицания или выполняют простейшие арифметические операции. Недавно с помощью circuit tracing удалось даже выявить зачатки "внутреннего монолога" в некоторых моделях.

Circuit tracing делает работу моделей прозрачной, показывая, как именно они обрабатывают информацию и формируют ответы, что крайне важно для дальнейшего развития интерпретируемого ИИ.

Что почитать/посмотреть:
- Статья Circuit Tracing: Revealing Computational Graphs in Language Models от Anthropic
- Исследование ACDC: Automating Circuit Discovery
- Mechanistic understanding and validation of large AI models with SemanticLens

Сергей Булаев AI 🤖 - об AI и не только
23
6
1 71 4K

Обсуждение 1

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram