avatar
AI VK Hub
@aihubvk
29.05.2026 08:19
В марте наша модель kazRush для перевода с русского на казахский язык показала лучший результат среди open-source решений в shared task на воркшопе LoResMT при EACL 2026 — одной из крупнейших международных конференций по NLP и машинному обучению.

Модель

Архитектура модели kazRush основана на конфигурации T5 с инициализацией весов с нуля, обучение проводилось на доступных открытых параллельных корпусах: OPUS (718 тыс. пар), kazparc (2.15 млн), wmt19 (5.06 млн), TIL (4.4 млн). Перед обучением данные прошли препроцессинг: дедупликацию, фильтрацию по языку, удаление пар с низким LaBSE-скором и очистку через OpusFilter. Обучение заняло 56 часов на двух GPU NVIDIA A100 80 ГБ.

Результаты соревнования

Исследователь из ИТМО использовал kazRush в рамках shared task на LoResMT 2026, посвящённом машинному переводу для малоресурсных языков. По итоговым метрикам соревнования модель показала лучший результат среди open-source решений.

Такие модели могут быть полезны исследователям, разработчикам ML-сервисов, образовательным проектам и командам, которые работают с локализацией контента или создают продукты для многоязычной аудитории. Для малоресурсных языков качественных open-source моделей все еще довольно мало, поэтому открытые решения здесь особенно важны для развития индустрии и исследований.

#aivkhub #kazRush #EACL
🔥 13
9
💅 6
👍 3
8 4 958

Обсуждение 8

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram

AI VK Hub

2.3K
Рассказываем и показываем AI в VK 🔉
Открыть в Telegram