Сергей Булаев AI 🤖 (@sergiobulaev): Как быстренько запилить визульный RAG. Ребята из Vespa показали, как просто . Они построил…

Как быстренько запилить визульный RAG.

Ребята из Vespa показали, как просто сделать Visual RAG (Retrieval-Augmented Generation) для работы с PDF-документами. Они построили демо-приложение на Python, которое позволяет искать и извлекать данные из PDF с помощью визуальных и текстовых запросов. Ключевой момент — использование ColPali-эмбеддингов, которые объединяют текст и изображения для более точного поиска. Приложение получилось быстрым и наглядным, с поддержкой функций вроде подсказок при вводе и динамических сниппетов.

Всё работает на Vespa — платформе, которая хорошо подходит для масштабируемых и сложных запросов. В качестве фронтенда использовалась FastHTML, позволяющая писать весь код на Python, включая интерфейс. Данные из PDF предварительно обрабатывались, чтобы извлечь изображения, текст и графики, а модели машинного обучения помогали создавать эмбеддинги и генерировать вопросы для поиска.

Исходники демо приложения, тут ноутбук с разбором.

Пару исслодавний по теме: Document Screenshot Embedding, Docling by IBM

Сергей Булаев AI 🤖 - об AI и не только

Обсуждение 0

Вход в экосистему

Ваши настройки cookie