Хабр (@habr_com): Галлюцинации LLM — это артефакты сжатия. И это объясняет вообще всё Предсказание токенов и…

Галлюцинации LLM — это артефакты сжатия. И это объясняет вообще всё

Предсказание токенов и сжатие данных математически тождественны. Если смотреть на языковые модели как на lossy-кодеки, всё встаёт на свои места. Модель упаковывает терабайты датасетов в гигабайты весов, и при таком сжатии потери информации неизбежны.

Точные факты стираются первыми, как мелкие детали на пережатом JPEG. Наткнувшись на пробел, декодер просто достраивает правдоподобный фрагмент. Эту фундаментальную проблему не решить без внедрения RAG или бесконечного наращивания параметров.

Проанализируем математику этого процесса.

Хабр

129.4K

НЛО с вами!

№ 5197888779

Хабр Новости → https://t.me/habr_com_news
Хабр Карьера → https://t.me/habr_career
Реклама → adv@habr.team

Обсуждение 24

Хабр

Пожаловаться

Обсуждение 24

Хабр

Вход в экосистему

Ваши настройки cookie