Вуги‐Буги
@voogieboogie
21 135 1.9K
Для маркетологов наступает эра абсолютного счастья, для всех остальных — время готовиться к еще более бесконечным потокам «нейрослопа».
И по пути она элегантно обходит Gemini 3 Pro на 30% в задачах сегментации контента.
Официально:
Video Foundation Model с поддержкой 36 языков и пониманием движений камеры на уровне оператора.
Фактически: Поиск по Entity (загрузил фото кроссовка — нашёл его во всём архиве) и Composed Image Retrieval (снайперская точность через картинку + текст одновременно).
На самом деле: Конвейер по разборке реальности в чистый, структурированный код.Система способна прожевать до 4 часов видео за один API-запрос — на лету, без мучительных пайплайнов индексации.
В моей работе другие модели ломали JSON в 30% случаев, а здесь массив таймкодов вылетает сразу в бэкенд — чисто, быстро и почти пугающе.
Сценариев столько, что доступ к таким вещам стоило бы выдавать только по спецпропускам.
Платформа использует файлы cookie для авторизации и сохранения настроек. Продолжая работу, вы соглашаетесь с нашей Политикой использования cookie.
Обсуждение 21
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram