Кучевые АйТи
@oblakoteka
Как сделать таймлайн видео для полуторачасового стрима?
В конце мая мы провели стрим про ИИ-помощников на базе LLM. Обсуждали многое — от «общей матчасти» до различий в архитектуре Dense, MoE и SSM.
Но организация стрима — это только половина вопроса, дальше предстояло выложить запись с тайм-кодами. А как это сделать, если готовых инструментов для разметки видео нет? Рассказывает Владимир Кондратьев, PDE Облакотеки.
Записью стали интересоваться ещё до эфира: часть зарегистрировавшихся понимала, что не успеет подключиться вовремя или послушать стрим целиком. Посмотреть полуторачасовой ролик на работе трудно, а вечером это время лучше посвятить фильму или сериалу в семейном кругу. Времени мало, и квалификация у слушателей разная. Кому-то нужны основы, а про RAG — сложно; другим основы не нужны, востребованы технические подробности. Требовалось средство, чтобы быстро «достать» из видео содержание с тайм-кодами.
Казалось, что на видеохостингах, например, YouTube, есть такой функционал, ведь у многих интервью в описании встречается оглавление. Но не у всех. Оказалось, что платформа предлагает лишь автоматическую «расшифровку» — не слишком удобное окно справа с текстами из видео. Оглавление с тайм-кодами YouTube либо не умеет создавать, либо функция скрыта для не бизнес-клиентов.
Мы поискали готовые сервисы «загрузи видео — получи тайм-код»: либо месячные тарифы заметно дороже разметки вручную, либо проще заказать труд расшифровщиков под ключ. Решения, одновременно качественного и недорогого, «по одной кнопке» так и не нашли. Возможно, вы знаете такое? Делитесь в комментариях .
Итак, получилась практическая «лаба» по итогам стрима. Мы продумали промпт, загрузили стенограмму в несколько моделей. Сравнили результаты — победителем оказался ChatGPT o3 (не mini) — ожидаемо. Вторым по качеству оказался DeepSeek. Пробовали ещё Gemini и Grok, но они лучше подходят для кодинга.
Результаты, конечно, субъективные. Несколько дней ушло на эксперименты и «рисерч», а критерием оценки были минимальные затраты времени и меньшее число дополнительных итераций. Для ChatGPT o3 понадобился один развёрнутый промпт: описали формат, порядок колонок и правило «тема — время — суть», затем провели одну итерацию уточнения формата краткого содержания — и всё.
В результате, когда документ с таймлайном был готов, добавить его к видео на YouTube не составило труда. Под записью появилось структурированное содержание: девять кликабельных глав вместо сплошного 90-минутного ролика.
Вот и ссылка на итоговое видео с оглавлением. Эксперимент себя оправдал: команда экономит ресурсы на расшифровку, а контент быстрее доходит до тех, кому он действительно нужен. Следующий шаг — протестировать ещё пару ВКС и собрать таблицу качества стенограмм. Результаты опубликуем отдельно!
#искусственно_интеллектуально
Облакотека / Оставить «бусты»
В конце мая мы провели стрим про ИИ-помощников на базе LLM. Обсуждали многое — от «общей матчасти» до различий в архитектуре Dense, MoE и SSM.
Но организация стрима — это только половина вопроса, дальше предстояло выложить запись с тайм-кодами. А как это сделать, если готовых инструментов для разметки видео нет? Рассказывает Владимир Кондратьев, PDE Облакотеки.
Записью стали интересоваться ещё до эфира: часть зарегистрировавшихся понимала, что не успеет подключиться вовремя или послушать стрим целиком. Посмотреть полуторачасовой ролик на работе трудно, а вечером это время лучше посвятить фильму или сериалу в семейном кругу. Времени мало, и квалификация у слушателей разная. Кому-то нужны основы, а про RAG — сложно; другим основы не нужны, востребованы технические подробности. Требовалось средство, чтобы быстро «достать» из видео содержание с тайм-кодами.
Казалось, что на видеохостингах, например, YouTube, есть такой функционал, ведь у многих интервью в описании встречается оглавление. Но не у всех. Оказалось, что платформа предлагает лишь автоматическую «расшифровку» — не слишком удобное окно справа с текстами из видео. Оглавление с тайм-кодами YouTube либо не умеет создавать, либо функция скрыта для не бизнес-клиентов.
Мы поискали готовые сервисы «загрузи видео — получи тайм-код»: либо месячные тарифы заметно дороже разметки вручную, либо проще заказать труд расшифровщиков под ключ. Решения, одновременно качественного и недорогого, «по одной кнопке» так и не нашли. Возможно, вы знаете такое? Делитесь в комментариях .
Немного отойдем в сторону. Мы в последнее время экспериментируем с разными ВКС и «артефактами ИИ», которые они выдают. Оказалось, что есть удобная вещь — протокол встречи с фиксацией сроков и обещаний. Мы тестировали несколько ВКС-платформ («Контур.Толк», «Яндекс Телемост», IVA Terra и другие) и убедились, что ИИ-начинка этих ВКС формирует стенограммы разного качества. В случае нашего стрима полученный «артефакт» оказался низкого качества.
Мы выгрузили видео и пропустили его через внешний платный сервис STT (speech-to-text). В итоге получили относительно качественную стенограмму для дальнейшей работы, хотя и с ошибками. Этот шаг можно было бы пропустить, если бы наш «артефакт» из ВКС был получше. Вывод: хорошая транскрибация сразу после встречи/стрима — главное, а вот итоги и таймлайны можно достаточно просто и недорого создавать при помощи LLM.
Итак, получилась практическая «лаба» по итогам стрима. Мы продумали промпт, загрузили стенограмму в несколько моделей. Сравнили результаты — победителем оказался ChatGPT o3 (не mini) — ожидаемо. Вторым по качеству оказался DeepSeek. Пробовали ещё Gemini и Grok, но они лучше подходят для кодинга.
Результаты, конечно, субъективные. Несколько дней ушло на эксперименты и «рисерч», а критерием оценки были минимальные затраты времени и меньшее число дополнительных итераций. Для ChatGPT o3 понадобился один развёрнутый промпт: описали формат, порядок колонок и правило «тема — время — суть», затем провели одну итерацию уточнения формата краткого содержания — и всё.
В результате, когда документ с таймлайном был готов, добавить его к видео на YouTube не составило труда. Под записью появилось структурированное содержание: девять кликабельных глав вместо сплошного 90-минутного ролика.
Вот и ссылка на итоговое видео с оглавлением. Эксперимент себя оправдал: команда экономит ресурсы на расшифровку, а контент быстрее доходит до тех, кому он действительно нужен. Следующий шаг — протестировать ещё пару ВКС и собрать таблицу качества стенограмм. Результаты опубликуем отдельно!
#искусственно_интеллектуально
Облакотека / Оставить «бусты»
❤ 7
👍 5
🔥 1
1 3 513
Обсуждение 1
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram