Покажи Публикации - vlad0
* Виж публикациите на потр. | Виж темите на потр. | Виж прикачените файлове на потр
Страници: [1]
1  Linux секция за начинаещи / Настройка на програми / Re: Конвергиране от pdf във word, doc -: Jun 20, 2013, 16:02
Това което правя аз в случая е:
1. с pdftotext си извличам всички или необходимите ми страници от pdf файла.
В случая от 7 до 12, като те ще бъдат записани в сивата гама, с резолюция 300 dpi във формат pgm.

Код:
pdftoppm -f 7 -l 12 -gray -r 300 mihailovich.pdf mihailovich 

2. Aко е необходимо ги обработвам с imagemagick.

3. Правя OCR с tesseract на получените файлове.

Код:
 tesseract mihailovich-007.pgm mihailovich-007 -l bul
tesseract mihailovich-008.pgm mihailovich-008 -l bul
tesseract mihailovich-009.pgm mihailovich-009 -l bul
и т.н.
 

получаваш файловете в txt формат и можеш да ги редактираш с OpenOffice/Word
Страници: [1]