Недавно захотел вытянуть текст из PDF документа в текстовый файл. В нем было много картинок и копировать куски текста, которых было много не очень хотелось. Поэтому я решил найти какой-нибудь выход. В итоге я нашел решение. Для этого нужно установить poppler-utils и воспользоваться утилитой pdftotext.
Выполним команду в Терминале:
sudo apt-get install poppler-utils
Теперь нужно перейти в каталог с PDF файлом и выполнить команду:
pdftotext PDF-file text-file
где вместо PDF-file нужно указать нужный файл, а вместо text-file укажите имя получаемого текстового файла. В итоге команда должна иметь следующий вид:
pdftotext document.pdf output.txt
Но можно указать в команде путь к PDF файлу и путь, куда нужно сохранить текстовый файл. В таком случае команда будет иметь такой вид:
pdftotext ~/PDF/document.pdf ~/Text/output.txt
Чтобы указать программе с какой страницы нужно начинать конвертирование нужно выполнить команду:
pdftotext -f 2 document.pdf output.txt
Чтобы указать до какой страницы нужно конвертировать наш документ выполним команду:
pdftotext -l 5 document.pdf output.txt
Теперь немного усложним задачу. Укажем программе с какой и по какую страницу нужно конвертировать документ:
pdftotext -f 2 -l 5 document.pdf output.txt
Если PDF документ защищен паролем владельца, то укажем пароль в команде:
pdftotext -opw 'password' document.pdf output.txt
Вместо password нужно указать пароль документа.
Если PDF документ защищен паролем пользователя, то команда будет следующей:
pdftotext -upw 'password' document.pdf output.txt
Вот такую полезную утилиту я открыл для себя и возможно для многих из вас. Удачи!
Вітаю. А ця утиліта виймає текст з файлів pdf створених у текстових редакторах і конвертованих у pdf чи з відсканованих теж?
Ні, з відсканованих нічого не вийде, треба лише з тих PDF файлів, де можна виділити текст.