Анализ данных (Data analysis) (@data_analysis_ml): Китайские кандзи теперь стали бенчмарком для VLLM Вышел открытый Chronicles-OCR - новый ви…

Китайские кандзи теперь стали бенчмарком для VLLM

Вышел открытый Chronicles-OCR - новый визуальный бенчмарк для проверки, насколько хорошо мультимодальные модели понимают древние китайские иероглифы.

Идея очень крутая: модели дают не современные аккуратные символы из шрифта, а реальные исторические формы письма за 3000 лет эволюции.

В датасете:

• 7 исторических стилей письма - от гадательных костей до скорописи
• 2800 сбалансированных изображений
• разные физические носители, где символы выглядят совсем не как “чистый OCR”
• задачи на поиск символов, распознавание, разбор древнего текста и классификацию стиля письма

Почему это интересно?

Потому что обычный OCR проверяет, умеет ли модель читать текст. А Chronicles-OCR проверяет другое: понимает ли VLLM, как меняется визуальная форма одного и того же знака во времени, на разных материалах и в разных стилях письма.

Для мультимодальных моделей это больное место. Символ может быть тем же самым по смыслу, но визуально выглядеть как совершенно другой объект. И здесь сразу видно, где модель реально “видит”, а где просто угадывает по паттернам.

Paper: https://arxiv.org/abs/2605.11960
GitHub: https://github.com/VirtualLUOUCAS/Chronicles-OCR

Обсуждение 2

Вход в экосистему

Ваши настройки cookie