Как быстренько запилить визульный RAG.
Ребята из Vespa показали, как просто
сделать Visual RAG (Retrieval-Augmented Generation) для работы с PDF-документами. Они построили демо-приложение на Python, которое позволяет искать и извлекать данные из PDF с помощью визуальных и текстовых запросов. Ключевой момент — использование
ColPali-эмбеддингов, которые объединяют текст и изображения для более точного поиска. Приложение получилось
быстрым и наглядным, с поддержкой функций вроде подсказок при вводе и динамических сниппетов.
Всё работает на
Vespa — платформе, которая хорошо подходит для масштабируемых и сложных запросов. В качестве фронтенда использовалась FastHTML, позволяющая писать весь код на Python, включая интерфейс. Данные из PDF предварительно обрабатывались, чтобы извлечь изображения, текст и графики, а модели машинного обучения помогали
создавать эмбеддинги и генерировать вопросы для поиска.
Исходники демо приложения, тут
ноутбук с разбором.
Пару исслодавний по теме:
Document Screenshot Embedding,
Docling by IBM
Сергей Булаев AI 🤖 - об AI и не только
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram