Автор Тема: Конвергиране от pdf във word, doc  (Прочетена 6139 пъти)

gogov1111

  • Напреднали
  • *****
  • Публикации: 181
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #15 -: Jun 20, 2013, 13:59 »
Stan 25, това, което пишеш е така. Мен ме интересува как мога от pdf файл, чрез cuneiform, да извлека текста и да го ползвам като word или какъвто и да е формат текст . Така поне разказва чичо google в интернет.
Активен

Stancho_25

  • Напреднали
  • *****
  • Публикации: 234
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #16 -: Jun 20, 2013, 14:09 »
Това което ми идва на идея е, че файла трябва да се експортнат всички страници като картинки. Ако има нужда може картинките да се обработят и да им се вдигне резолюцията (може да се ползва imagemagick) и после да се преминат през cuneiform. Накрая може и множеството текстови файлове да се обединят в един. Това може да се автоматизира с bash скрипт, но тук съм вече доста бос.
Активен

gogov1111

  • Напреднали
  • *****
  • Публикации: 181
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #17 -: Jun 20, 2013, 14:37 »
Naka, май ще се откажа, защото става въпрос за pdf от сканиран техт и то като картинка. Дай Боже скоро за линукс да се появи някаква свястна програма.
Активен

vlad0

  • Новаци
  • *
  • Публикации: 1
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #18 -: Jun 20, 2013, 16:02 »
Това което правя аз в случая е:
1. с pdftotext си извличам всички или необходимите ми страници от pdf файла.
В случая от 7 до 12, като те ще бъдат записани в сивата гама, с резолюция 300 dpi във формат pgm.

Код:
pdftoppm -f 7 -l 12 -gray -r 300 mihailovich.pdf mihailovich

2. Aко е необходимо ги обработвам с imagemagick.

3. Правя OCR с tesseract на получените файлове.

Код:
tesseract mihailovich-007.pgm mihailovich-007 -l bul
tesseract mihailovich-008.pgm mihailovich-008 -l bul
tesseract mihailovich-009.pgm mihailovich-009 -l bul
и т.н.
 

получаваш файловете в txt формат и можеш да ги редактираш с OpenOffice/Word
Активен

dvelev

  • Участници
  • ***
  • Публикации: 5
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #19 -: Jun 20, 2013, 16:42 »
Защо не опиташ онлайн - http://finereader.abbyyonline.com/en
Активен

Stancho_25

  • Напреднали
  • *****
  • Публикации: 234
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #20 -: Jun 20, 2013, 16:44 »
Както вече казах съм бос в скриптовете, но ето едно предложение от мен с което може да се автоматизира сканирането на pdf файл. Правен е с копи-пейст оттук оттам. За всеки pdf файл ще ти се наложи да го редактираш.

Код:
#!/bin/bash

#SOURCEPDF="име на PDF файла"
SOURCEPDF=scansmpl.pdf

#конвертиране на документа до png изображения
convert -quality 100 -density 300x300 $SOURCEPDF foo%d.png

#Изпълняване на cuneiform за всяко едно от изображенията.
for img in *.png; do
    filename=${img%.*}
    cuneiform -l eng -f text --fax -o "$filename.txt" "$filename.png"
done

#събиране на текста в един файл
for text in *.txt; do
    filetext=${text%.*}
    cat "$filetext.txt" >> end.TXT
done

#изтриване на временните файлове
rm foo*


За всеки случай скрипта и pdf файла нека да са копирани в една празна папка където да си тестваш.
Активен

go_fire

  • Global Moderator
  • Напреднали
  • *****
  • Публикации: 6187
  • Distribution: Дебиан Сид
  • Window Manager: ROX-Desktop / е17
  • кашик с гранатомет в танково поделение
    • Профил
    • WWW
Re: Конвергиране от pdf във word, doc
« Отговор #21 -: Jun 20, 2013, 23:59 »
Не съм ползвал това програмче, дето идва с Xpdf, но последният има бая проблем с кирилицата (сиреч не я разпознава) и не  вярвам то също  да се справи.   А и въпроса  беше за pdf като  контейнер на изображения, а не на текст.
Активен

В $por4e2 e истината  ;)

***

Aко даваха стипендия за най-глупави, щях да съм човека с най-много Mини Kупъри

***

Reborn since 1998 || 15.09.2007 totally М$ free && conscience clear