AI VK Hub (@aihubvk): В марте наша модель для перевода с русского на казахский язык показала лучший результат с…

В марте наша модель kazRush для перевода с русского на казахский язык показала лучший результат среди open-source решений в shared task на воркшопе LoResMT при EACL 2026 — одной из крупнейших международных конференций по NLP и машинному обучению.

Модель

Архитектура модели kazRush основана на конфигурации T5 с инициализацией весов с нуля, обучение проводилось на доступных открытых параллельных корпусах: OPUS (718 тыс. пар), kazparc (2.15 млн), wmt19 (5.06 млн), TIL (4.4 млн). Перед обучением данные прошли препроцессинг: дедупликацию, фильтрацию по языку, удаление пар с низким LaBSE-скором и очистку через OpusFilter. Обучение заняло 56 часов на двух GPU NVIDIA A100 80 ГБ.

Результаты соревнования

Исследователь из ИТМО использовал kazRush в рамках shared task на LoResMT 2026, посвящённом машинному переводу для малоресурсных языков. По итоговым метрикам соревнования модель показала лучший результат среди open-source решений.

Такие модели могут быть полезны исследователям, разработчикам ML-сервисов, образовательным проектам и командам, которые работают с локализацией контента или создают продукты для многоязычной аудитории. Для малоресурсных языков качественных open-source моделей все еще довольно мало, поэтому открытые решения здесь особенно важны для развития индустрии и исследований.

#aivkhub #kazRush #EACL

Обсуждение 8

AI VK Hub

Пожаловаться

Обсуждение 8

AI VK Hub

Вход в экосистему

Ваши настройки cookie