1. с pdftotext си извличам всички или необходимите ми страници от pdf файла.
В случая от 7 до 12, като те ще бъдат записани в сивата гама, с резолюция 300 dpi във формат pgm.
Код:
pdftoppm -f 7 -l 12 -gray -r 300 mihailovich.pdf mihailovich
2. Aко е необходимо ги обработвам с imagemagick.
3. Правя OCR с tesseract на получените файлове.
Код:
tesseract mihailovich-007.pgm mihailovich-007 -l bul
tesseract mihailovich-008.pgm mihailovich-008 -l bul
tesseract mihailovich-009.pgm mihailovich-009 -l bul
и т.н.
получаваш файловете в txt формат и можеш да ги редактираш с OpenOffice/Word