12 октября 2014 г.

Извлечение текста из pdf документов c помощью gpdftext

PDF очень удобный формат и в нем распространяется множество файлов, особенно учебных. Однако при копировании текста из PDF файлов в текстовые процессоры возникает проблема.
Каждая строка вставляется с отступом «первой строки».

Чтобы избежать лишней работы, я использую программу gpdftext (не путать с pdftotext). Программа есть в репозитории Ubuntu.

Пользоваться программой легко. Запускаете программу, открываете pdf файл и все. Полученный результат можно сохранить в .txt файле.
Но есть несколько проблем. Вот результат при копировании полученного текста в текстовый процес
1-я — Программа видит не все абзацы.
На предыдущем скриншоте в этом отрезке текста должно быть два абзаца. Эту проблему я решил ручным способом.

2-я — Программа подчеркивает все слова с буквой «й»
Не такая уж проблема, но лишние подчеркивания отвлекают.

Оказывается, что программа распознает букву «й» как два символа — как букву «и» и диакритический знак "ˇ". Решается эта программа поиском и заменой.
Вот итоговый результат:
P.S. Пробовал консольную программу pdftotext, результат не удовлетворил.