Linux за българи: Форуми

Linux секция за начинаещи => Настройка на програми => Темата е започната от: gogov1111 в Jun 15, 2013, 09:10



Титла: Конвергиране от pdf във word, doc
Публикувано от: gogov1111 в Jun 15, 2013, 09:10
Ползвам Ubuntustudio 13.04. Доста рових в интернет, за да намеря програма за конвергиране от pdf във word, doc, която да работи с български език. Ако има такава програма, която да работи под Linux, помагайте. Проблема при мен е, че много често ми се налага да извършвам промяната от pdf във текстови файл.


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: cybercop в Jun 15, 2013, 09:37
Копирането на текста от Evince и поставянето в документ  на libreoffice-writer не върши ли ти работа ? Става на секунди.


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: spec1 в Jun 15, 2013, 10:57
  Ами защото не винаги  се получава с  копи/пейст от  pdf.
Имал съм доста такива случаи, в които помагат единствено
снимки на екрана ...
   И, за съжаление няма добри безплатни OCR програми за linux
   e, има    tesseract , но това е жива мъка ...


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: cybercop в Jun 15, 2013, 11:09
Защото не винаги pdf. файла е конвертиран от текст. Предполагам, че си се опитвал да конвертираш pdf от снимка в текстов документ.


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: go_fire в Jun 15, 2013, 12:07
Ей  ти на нямало, трудно  било, ала-бала. А някой хора писали, писали:

http://homelinuxpaper.org/news.php?extend.476
http://homelinuxpaper.org/news.php?item.482

Ама кой да седне да потърси.

Иначе не е задължително pdf да се ползва като контейнер на картинки, за да не могат да се манипулират текстове. Издателските системи от полиграфически съображения по подразбиране растеризират текста.

Обичайният способ за нас обикновено е convert. Има някакви фъшкии за една друга ОС дето уж можели да преминават от един документен формат в друг, но аз работещи не съм видял.

ЛО може директно да отваря pdf, PDF Edit също, но не съм убеден до колко  е практичен.


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: gogov1111 в Jun 19, 2013, 15:57
Нещо не вървят нещата. Вярно, ако може да се копира текста от pdf файла и се постави в libreofice writer става.
След като изчетох доста из интернет инсталирах YAGF, но тази програма търси снимки и картинки, но не и pdf файл. Същото е и при OCRFeeder, също не познава pdf. Инсталирах cuneiform-gt, но сега не зная какво да правя. След инсталацията не се създаде стартов демон. Не става и от терминала. Помагайте!


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: bop_bop_mara в Jun 19, 2013, 16:32
//малък оффтопик
програма за конвергиране от pdf във word, doc, която да работи с български език
http://translate.google.com/#la/bg/convergare
http://translate.google.com/#la/bg/convertare


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: gogov1111 в Jun 19, 2013, 16:55
Bop_bop_mara, къде ме изпращаш? Мисля, че темата е достатъчно сериозна.


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: kifavi8024 в Jun 19, 2013, 17:02
Намеква ти, че пишеш грешният термин - трябва ти програма за конвертиране, а не за "конвергиране".


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: PaperNick в Jun 19, 2013, 22:47
Можеш да редактираш PDF документи с Inkscape.

Друг вариант е да използваш - http://online-convert.com/ (не всеки път е като хората)


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: gogov1111 в Jun 20, 2013, 11:53
Intel, в какво се състои работата с pdf файловете ползвайки Inkscape? Мен ме интересува как да извлека текста от pdf файла и да го ползвам във word формат и то когато pdf е създаден от image файл. Във всички останали случаи нещата стават с копиране от pdf и поставяне на текста във word.


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: kifavi8024 в Jun 20, 2013, 12:17
Ами за тази цел специално си има програми като ABBYY FineReader ($2) - PDF -> OCR -> Word doc.

Само че няма версия за linux, но пък може да пробваш да я подкараш през Wine.


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: gogov1111 в Jun 20, 2013, 12:42
Intel, познавам добре ABBY FineReader, но нямам инсталирана бозата, а и само за това не си струва да я инсталирам, щото много я мразя тая боза. Пък и нямам доста над 3 хиляди щатски долара, за да я активирам. Въпреки това се помъчех да я инсталирам под wine, започва някаква инсталация и след това замира. И така докато спра инсталацията. Има версия на ABBY FineReader под Linux, казва се abbyyocr, но и нейното активиране струва доста парички. Затова се мъча да се справя, с това, с което разполага Linux. Мисля, че cuneiform ще свърши работа само, че не зная как работи. Имам я инсталирана на компютъра си. Ще се мъча, щом никой във форума не може да ми помогне. Ще попитам и в други форуми, въпреки, че тук, вече повече от 10 години винаги съм получавал помощ.


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: Stancho_25 в Jun 20, 2013, 13:49
Здравей,

Това което схванах аз за cuneiform е следното в общи линии.

Код:
Usage: cuneiform [-l languagename -f format --dotmatrix --fax --singlecolumn -o result_file] imagefile

Код:
cuneiform -l

Вади списък с поддържаните езици

Код:
cuneiform -f

Вади списък с изходните текстови формати

Ето и пример.

Код:
cuneiform -l bul -f text -o Текст.txt Снимка.png

За прехвърляне на множество картинки едновременно може да се измисли някакъв bash скрипт. Сканираните материали трябва да са с добра резолюция. За pdf файл не съм пробвал дали работи. Забелязал съм, че не се справя със смесен текст на няколко езика.

ПС. Забелязах, че има опция единствено да разпознава смесен текст на руски и английски. Може да се пробва с нея как се справя при български и английски текст.
Код:
cuneiform -l ruseng -f text -o Текст.txt Снимка.png


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: Naka в Jun 20, 2013, 13:59
Има начин да се екстрактне суровият текст така както е от пдф-а.
Това става чрез тоола pdftotext. А pdftotext идва от пакета xpdf, който го има във всяка дистрибуция.

Код:
pdftotext  -nopgbrk -enc UTF-8 PrivateView2012.pdf out.txt
pdftotext  -nopgbrk -enc UTF-8 *pdf - > out.txt

А това съм ползвал за екстрактване на текст от много pdf файлове от една директория и обединяване на текста в един общ файл.
Код:
shopt -s extglob; for f in *.{pdf,PDF}; do echo -ne "Open: $f\n"; pdftotext -nopgbrk -enc UTF-8 "$f" - >> KF.txt; done


трябва малко да си поиграеш с опциите на pdftotext.
А след това екстрактнатият текст copy-paste в ОпенОфис.

Ако обаче текста е картинка - нямаш шансове и не се мъчи. Само ще си загубиш времето. Свястна OCR за линукс няма. Но и да има и трябва обучение...трябва и голяма резолюция на входните файлове...трябва и и някаква лингвистична поддръжка на Български.


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: gogov1111 в Jun 20, 2013, 13:59
Stan 25, това, което пишеш е така. Мен ме интересува как мога от pdf файл, чрез cuneiform, да извлека текста и да го ползвам като word или какъвто и да е формат текст . Така поне разказва чичо google в интернет.


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: Stancho_25 в Jun 20, 2013, 14:09
Това което ми идва на идея е, че файла трябва да се експортнат всички страници като картинки. Ако има нужда може картинките да се обработят и да им се вдигне резолюцията (може да се ползва imagemagick) и после да се преминат през cuneiform. Накрая може и множеството текстови файлове да се обединят в един. Това може да се автоматизира с bash скрипт, но тук съм вече доста бос.


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: gogov1111 в Jun 20, 2013, 14:37
Naka, май ще се откажа, защото става въпрос за pdf от сканиран техт и то като картинка. Дай Боже скоро за линукс да се появи някаква свястна програма.


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: vlad0 в Jun 20, 2013, 16:02
Това което правя аз в случая е:
1. с pdftotext си извличам всички или необходимите ми страници от pdf файла.
В случая от 7 до 12, като те ще бъдат записани в сивата гама, с резолюция 300 dpi във формат pgm.

Код:
pdftoppm -f 7 -l 12 -gray -r 300 mihailovich.pdf mihailovich 

2. Aко е необходимо ги обработвам с imagemagick.

3. Правя OCR с tesseract на получените файлове.

Код:
 tesseract mihailovich-007.pgm mihailovich-007 -l bul
tesseract mihailovich-008.pgm mihailovich-008 -l bul
tesseract mihailovich-009.pgm mihailovich-009 -l bul
и т.н.
 

получаваш файловете в txt формат и можеш да ги редактираш с OpenOffice/Word


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: dvelev в Jun 20, 2013, 16:42
Защо не опиташ онлайн - http://finereader.abbyyonline.com/en ($2)


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: Stancho_25 в Jun 20, 2013, 16:44
Както вече казах съм бос в скриптовете, но ето едно предложение от мен с което може да се автоматизира сканирането на pdf файл. Правен е с копи-пейст оттук оттам. За всеки pdf файл ще ти се наложи да го редактираш.

Код:
#!/bin/bash

#SOURCEPDF="име на PDF файла"
SOURCEPDF=scansmpl.pdf

#конвертиране на документа до png изображения
convert -quality 100 -density 300x300 $SOURCEPDF foo%d.png

#Изпълняване на cuneiform за всяко едно от изображенията.
for img in *.png; do
    filename=${img%.*}
    cuneiform -l eng -f text --fax -o "$filename.txt" "$filename.png"
done

#събиране на текста в един файл
for text in *.txt; do
    filetext=${text%.*}
    cat "$filetext.txt" >> end.TXT
done

#изтриване на временните файлове
rm foo*


За всеки случай скрипта и pdf файла нека да са копирани в една празна папка където да си тестваш.


Титла: Re: Конвергиране от pdf във word, doc
Публикувано от: go_fire в Jun 20, 2013, 23:59
Не съм ползвал това програмче, дето идва с Xpdf, но последният има бая проблем с кирилицата (сиреч не я разпознава) и не  вярвам то също  да се справи.   А и въпроса  беше за pdf като  контейнер на изображения, а не на текст.