emoji Массовый поиск конфиденциальных данных в PDF-файлах

Исследуя таргет часто попадается много pdf'ок, которые могут содержать конфиденциальные данные. Просматривать вручную все это очень долго, а потому можно попробовать автоматизировать этот процесс.

emoji Используем gau для сбора конечных точек из wayback, urlscan и т.д.
emoji Фильтруем конечные точки по расширению .pdf с помощью Grep.
emoji Проверяем с httpx, что url живой и возвращает 200 ОК.
emoji С помощью curl'а смотрим все живые pdf'ки.
Конвертируем PDF в текст. Для этого есть утилитка pdftotext, которая, как видно из названия, умеет переводить из pdf в текст. Устанавливается так:
sudo apt install poppler-utils

Используем Grep для некоторых чувствительных слов, таких как "internal use only" или "confidential" и т.д.

В результате чего получим такую команду:

for i in $(echo "gov.uk" | gau --subs --threads 16 | grep -E -o 'https?://[^[:space:]]+\.pdf' | httpx -silent -mc 200); do if curl -k -s $i | pdftotext -q - - | grep -Eaiq 'confidential|internal use only'; then echo $i | tee output.txt; fi; done


Эта команда сканирует веб-сайт "gov.uk" и его поддомены в поиске URL-ов с PDF-файлами. Затем она проверяет каждый PDF-файл на наличие строк "confidential" или "internal use only" и записывает эти URL-ы в файл "output.txt".

Вы можете включить свое творческое мышление и попытаться изменить этот скрипт по своему усмотрению. Например, используя katana вместо gau или проверяя наличие других чувствительных слов, используя другие расширения и т.д. Использование собственного творческого подхода даст вам максимальную отдачу!

#web #recon #leak
🔥 30
👍 7
😢 1
575 13.3K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram