Кучевые АйТи (@oblakoteka): Как сделать таймлайн видео для полуторачасового стрима? В конце мая мы провели про ИИ-пом…

Как сделать таймлайн видео для полуторачасового стрима?

В конце мая мы провели стрим про ИИ-помощников на базе LLM. Обсуждали многое — от «общей матчасти» до различий в архитектуре Dense, MoE и SSM.

Но организация стрима — это только половина вопроса, дальше предстояло выложить запись с тайм-кодами. А как это сделать, если готовых инструментов для разметки видео нет? Рассказывает Владимир Кондратьев, PDE Облакотеки.

Записью стали интересоваться ещё до эфира: часть зарегистрировавшихся понимала, что не успеет подключиться вовремя или послушать стрим целиком. Посмотреть полуторачасовой ролик на работе трудно, а вечером это время лучше посвятить фильму или сериалу в семейном кругу. Времени мало, и квалификация у слушателей разная. Кому-то нужны основы, а про RAG — сложно; другим основы не нужны, востребованы технические подробности. Требовалось средство, чтобы быстро «достать» из видео содержание с тайм-кодами.

Казалось, что на видеохостингах, например, YouTube, есть такой функционал, ведь у многих интервью в описании встречается оглавление. Но не у всех. Оказалось, что платформа предлагает лишь автоматическую «расшифровку» — не слишком удобное окно справа с текстами из видео. Оглавление с тайм-кодами YouTube либо не умеет создавать, либо функция скрыта для не бизнес-клиентов.

Мы поискали готовые сервисы «загрузи видео — получи тайм-код»: либо месячные тарифы заметно дороже разметки вручную, либо проще заказать труд расшифровщиков под ключ. Решения, одновременно качественного и недорогого, «по одной кнопке» так и не нашли. Возможно, вы знаете такое? Делитесь в комментариях .

Немного отойдем в сторону. Мы в последнее время экспериментируем с разными ВКС и «артефактами ИИ», которые они выдают. Оказалось, что есть удобная вещь — протокол встречи с фиксацией сроков и обещаний. Мы тестировали несколько ВКС-платформ («Контур.Толк», «Яндекс Телемост», IVA Terra и другие) и убедились, что ИИ-начинка этих ВКС формирует стенограммы разного качества. В случае нашего стрима полученный «артефакт» оказался низкого качества.

Мы выгрузили видео и пропустили его через внешний платный сервис STT (speech-to-text). В итоге получили относительно качественную стенограмму для дальнейшей работы, хотя и с ошибками. Этот шаг можно было бы пропустить, если бы наш «артефакт» из ВКС был получше. Вывод: хорошая транскрибация сразу после встречи/стрима — главное, а вот итоги и таймлайны можно достаточно просто и недорого создавать при помощи LLM.

Итак, получилась практическая «лаба» по итогам стрима. Мы продумали промпт, загрузили стенограмму в несколько моделей. Сравнили результаты — победителем оказался ChatGPT o3 (не mini) — ожидаемо. Вторым по качеству оказался DeepSeek. Пробовали ещё Gemini и Grok, но они лучше подходят для кодинга.

Результаты, конечно, субъективные. Несколько дней ушло на эксперименты и «рисерч», а критерием оценки были минимальные затраты времени и меньшее число дополнительных итераций. Для ChatGPT o3 понадобился один развёрнутый промпт: описали формат, порядок колонок и правило «тема — время — суть», затем провели одну итерацию уточнения формата краткого содержания — и всё.

В результате, когда документ с таймлайном был готов, добавить его к видео на YouTube не составило труда. Под записью появилось структурированное содержание: девять кликабельных глав вместо сплошного 90-минутного ролика.

Вот и ссылка на итоговое видео с оглавлением. Эксперимент себя оправдал: команда экономит ресурсы на расшифровку, а контент быстрее доходит до тех, кому он действительно нужен. Следующий шаг — протестировать ещё пару ВКС и собрать таблицу качества стенограмм. Результаты опубликуем отдельно!

#искусственно_интеллектуально

Облакотека / Оставить «бусты»

Обсуждение 1

Вход в экосистему

Ваши настройки cookie