pdfgrep: поиск слов по PDF файлам

jetxee

2008-08-06

Материал распространяется на условиях Creative Commons Attribution-Noncommercial-Share Alike 3.0 Unported License.

Дано: куча PDF файлов (разные статьи). Найти: те из них, в которых упоминаются определённые ключевые слова.

Я привык grep'ать по текстовым файлам в поисках нужного слова или сочетания слов. Вот только grep шаблон файл.pdf ничего не находит. «Не беда» — решил я и написал обвязку для grep, которая конвертирует PDF в простой текст с помощью pdftotext и ищёт уже в нём, а имя файла показывает исходное.

Получился у меня вот такой скрипт pdfgrep. Запускать можно, например, так:

$ pdfgrep --color=always -i '(navier[- ]){0,1}stokes' *.pdf

Конечно, стоило мне собраться написать об этом в блог и поискать в интернете — как оказалось, что я не первый, кто такой скрипт написал. Вот практически идентичные скрипты: pdfgrep-1 и pdfgrep-2… В общем, идея понятна.