Конвертируем PDF в текст в Убунту

Стандартный

pdf-text

Недавно захотел вытянуть текст из PDF документа в текстовый файл. В нем было много картинок и копировать куски текста, которых было много не очень хотелось. Поэтому я решил найти какой-нибудь выход. В итоге я нашел решение. Для этого нужно установить  poppler-utils и воспользоваться  утилитой pdftotext.

Выполним команду в Терминале:

sudo apt-get install poppler-utils

Теперь нужно перейти в каталог с PDF файлом и выполнить команду:

pdftotext PDF-file text-file



где вместо PDF-file нужно указать нужный файл, а вместо text-file укажите имя получаемого текстового файла. В итоге команда должна иметь следующий вид:

pdftotext document.pdf output.txt

Но можно указать в команде путь к PDF файлу и путь, куда нужно сохранить текстовый файл. В таком случае команда будет иметь такой вид:

pdftotext ~/PDF/document.pdf ~/Text/output.txt

Чтобы указать программе с какой страницы нужно начинать конвертирование нужно выполнить команду:

pdftotext -f 2 document.pdf output.txt

Чтобы указать до какой страницы нужно конвертировать наш документ выполним команду:

pdftotext -l 5 document.pdf output.txt

Теперь немного усложним задачу. Укажем программе с какой и по какую страницу нужно конвертировать документ:

pdftotext -f 2 -l 5 document.pdf output.txt

Если PDF документ защищен паролем владельца, то укажем пароль в команде:

pdftotext -opw 'password' document.pdf output.txt

Вместо password нужно указать пароль документа.

Если PDF документ защищен паролем пользователя, то команда будет следующей:

pdftotext -upw 'password' document.pdf output.txt

Вот такую полезную утилиту я открыл для себя и возможно для многих из вас. Удачи!


2 Comments

  1. Вітаю. А ця утиліта виймає текст з файлів pdf створених у текстових редакторах і конвертованих у pdf чи з відсканованих теж?

Leave a Reply

Статьи