PDF очень удобный формат и в нем распространяется множество файлов,
особенно учебных. Однако при копировании текста из PDF файлов в
текстовые процессоры возникает проблема.
Каждая строка вставляется с отступом «первой строки».
Чтобы избежать лишней работы, я использую программу gpdftext (не путать с pdftotext). Программа есть в репозитории Ubuntu.
Пользоваться программой легко. Запускаете программу, открываете pdf файл и все. Полученный результат можно сохранить в .txt файле.
Но есть несколько проблем. Вот результат при копировании полученного текста в текстовый процес
1-я — Программа видит не все абзацы.
На предыдущем скриншоте в этом отрезке текста должно быть два абзаца. Эту проблему я решил ручным способом.
2-я — Программа подчеркивает все слова с буквой «й»
Не такая уж проблема, но лишние подчеркивания отвлекают.
Оказывается, что программа распознает букву «й» как два символа — как букву «и» и диакритический знак "ˇ". Решается эта программа поиском и заменой.
Вот итоговый результат:
P.S. Пробовал консольную программу pdftotext, результат не удовлетворил.
Чтобы избежать лишней работы, я использую программу gpdftext (не путать с pdftotext). Программа есть в репозитории Ubuntu.
Пользоваться программой легко. Запускаете программу, открываете pdf файл и все. Полученный результат можно сохранить в .txt файле.
Но есть несколько проблем. Вот результат при копировании полученного текста в текстовый процес
1-я — Программа видит не все абзацы.
На предыдущем скриншоте в этом отрезке текста должно быть два абзаца. Эту проблему я решил ручным способом.
2-я — Программа подчеркивает все слова с буквой «й»
Не такая уж проблема, но лишние подчеркивания отвлекают.
Оказывается, что программа распознает букву «й» как два символа — как букву «и» и диакритический знак "ˇ". Решается эта программа поиском и заменой.
Вот итоговый результат:
P.S. Пробовал консольную программу pdftotext, результат не удовлетворил.
Комментариев нет:
Отправить комментарий