Автор Тема: Конвергиране от pdf във word, doc  (Прочетена 7747 пъти)

gogov1111

  • Напреднали
  • *****
  • Публикации: 181
    • Профил
Ползвам Ubuntustudio 13.04. Доста рових в интернет, за да намеря програма за конвергиране от pdf във word, doc, която да работи с български език. Ако има такава програма, която да работи под Linux, помагайте. Проблема при мен е, че много често ми се налага да извършвам промяната от pdf във текстови файл.
Активен

cybercop

  • Напреднали
  • *****
  • Публикации: 5626
  • Distribution: Ubuntu LTS, CENTOS 6.x
  • Window Manager: Xfce, Gnome 2
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #1 -: Jun 15, 2013, 09:37 »
Копирането на текста от Evince и поставянето в документ  на libreoffice-writer не върши ли ти работа ? Става на секунди.
Активен

Ползването на Linux води до пристрастяване. Факт.
http://s19.postimg.cc/4oajwoq5v/xenial2.png

spec1

  • Напреднали
  • *****
  • Публикации: 230
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #2 -: Jun 15, 2013, 10:57 »
  Ами защото не винаги  се получава с  копи/пейст от  pdf.
Имал съм доста такива случаи, в които помагат единствено
снимки на екрана ...
   И, за съжаление няма добри безплатни OCR програми за linux
   e, има    tesseract , но това е жива мъка ...
Активен

cybercop

  • Напреднали
  • *****
  • Публикации: 5626
  • Distribution: Ubuntu LTS, CENTOS 6.x
  • Window Manager: Xfce, Gnome 2
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #3 -: Jun 15, 2013, 11:09 »
Защото не винаги pdf. файла е конвертиран от текст. Предполагам, че си се опитвал да конвертираш pdf от снимка в текстов документ.
Активен

Ползването на Linux води до пристрастяване. Факт.
http://s19.postimg.cc/4oajwoq5v/xenial2.png

go_fire

  • Global Moderator
  • Напреднали
  • *****
  • Публикации: 8780
  • Distribution: Дебиан Сид
  • Window Manager: ROX-Desktop / е17
  • кашик с гранатомет в танково поделение
    • Профил
    • WWW
Re: Конвергиране от pdf във word, doc
« Отговор #4 -: Jun 15, 2013, 12:07 »
Ей  ти на нямало, трудно  било, ала-бала. А някой хора писали, писали:

http://homelinuxpaper.org/news.php?extend.476
http://homelinuxpaper.org/news.php?item.482

Ама кой да седне да потърси.

Иначе не е задължително pdf да се ползва като контейнер на картинки, за да не могат да се манипулират текстове. Издателските системи от полиграфически съображения по подразбиране растеризират текста.

Обичайният способ за нас обикновено е convert. Има някакви фъшкии за една друга ОС дето уж можели да преминават от един документен формат в друг, но аз работещи не съм видял.

ЛО може директно да отваря pdf, PDF Edit също, но не съм убеден до колко  е практичен.
Активен

В $por4e2 e истината  ;)

***

Aко даваха стипендия за най-глупави, щях да съм човека с най-много Mини Kупъри

***

Reborn since 1998 || 15.09.2007 totally М$ free && conscience clear

gogov1111

  • Напреднали
  • *****
  • Публикации: 181
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #5 -: Jun 19, 2013, 15:57 »
Нещо не вървят нещата. Вярно, ако може да се копира текста от pdf файла и се постави в libreofice writer става.
След като изчетох доста из интернет инсталирах YAGF, но тази програма търси снимки и картинки, но не и pdf файл. Същото е и при OCRFeeder, също не познава pdf. Инсталирах cuneiform-gt, но сега не зная какво да правя. След инсталацията не се създаде стартов демон. Не става и от терминала. Помагайте!
Активен

bop_bop_mara

  • Напреднали
  • *****
  • Публикации: 2433
  • Distribution: Debian Testing
  • Window Manager: LXDE
  • Cute and cuddly
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #6 -: Jun 19, 2013, 16:32 »
//малък оффтопик
програма за конвергиране от pdf във word, doc, която да работи с български език
http://translate.google.com/#la/bg/convergare
http://translate.google.com/#la/bg/convertare
Активен

gogov1111

  • Напреднали
  • *****
  • Публикации: 181
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #7 -: Jun 19, 2013, 16:55 »
Bop_bop_mara, къде ме изпращаш? Мисля, че темата е достатъчно сериозна.
Активен

kifavi8024

  • Новаци
  • *
  • Публикации: 0
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #8 -: Jun 19, 2013, 17:02 »
Намеква ти, че пишеш грешният термин - трябва ти програма за конвертиране, а не за "конвергиране".
Активен

PaperNick

  • Напреднали
  • *****
  • Публикации: 291
  • Window Manager: Xfce
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #9 -: Jun 19, 2013, 22:47 »
Можеш да редактираш PDF документи с Inkscape.

Друг вариант е да използваш - http://online-convert.com/ (не всеки път е като хората)
Активен

Practice

gogov1111

  • Напреднали
  • *****
  • Публикации: 181
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #10 -: Jun 20, 2013, 11:53 »
Intel, в какво се състои работата с pdf файловете ползвайки Inkscape? Мен ме интересува как да извлека текста от pdf файла и да го ползвам във word формат и то когато pdf е създаден от image файл. Във всички останали случаи нещата стават с копиране от pdf и поставяне на текста във word.
« Последна редакция: Jun 20, 2013, 12:03 от gogov1111 »
Активен

kifavi8024

  • Новаци
  • *
  • Публикации: 0
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #11 -: Jun 20, 2013, 12:17 »
Ами за тази цел специално си има програми като ABBYY FineReader - PDF -> OCR -> Word doc.

Само че няма версия за linux, но пък може да пробваш да я подкараш през Wine.
Активен

gogov1111

  • Напреднали
  • *****
  • Публикации: 181
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #12 -: Jun 20, 2013, 12:42 »
Intel, познавам добре ABBY FineReader, но нямам инсталирана бозата, а и само за това не си струва да я инсталирам, щото много я мразя тая боза. Пък и нямам доста над 3 хиляди щатски долара, за да я активирам. Въпреки това се помъчех да я инсталирам под wine, започва някаква инсталация и след това замира. И така докато спра инсталацията. Има версия на ABBY FineReader под Linux, казва се abbyyocr, но и нейното активиране струва доста парички. Затова се мъча да се справя, с това, с което разполага Linux. Мисля, че cuneiform ще свърши работа само, че не зная как работи. Имам я инсталирана на компютъра си. Ще се мъча, щом никой във форума не може да ми помогне. Ще попитам и в други форуми, въпреки, че тук, вече повече от 10 години винаги съм получавал помощ.
« Последна редакция: Jun 20, 2013, 12:45 от gogov1111 »
Активен

Stancho_25

  • Напреднали
  • *****
  • Публикации: 234
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #13 -: Jun 20, 2013, 13:49 »
Здравей,

Това което схванах аз за cuneiform е следното в общи линии.

Код:
Usage: cuneiform [-l languagename -f format --dotmatrix --fax --singlecolumn -o result_file] imagefile

Код:
cuneiform -l

Вади списък с поддържаните езици

Код:
cuneiform -f

Вади списък с изходните текстови формати

Ето и пример.

Код:
cuneiform -l bul -f text -o Текст.txt Снимка.png

За прехвърляне на множество картинки едновременно може да се измисли някакъв bash скрипт. Сканираните материали трябва да са с добра резолюция. За pdf файл не съм пробвал дали работи. Забелязал съм, че не се справя със смесен текст на няколко езика.

ПС. Забелязах, че има опция единствено да разпознава смесен текст на руски и английски. Може да се пробва с нея как се справя при български и английски текст.
Код:
cuneiform -l ruseng -f text -o Текст.txt Снимка.png
« Последна редакция: Jun 20, 2013, 14:00 от stan25 »
Активен

Naka

  • Напреднали
  • *****
  • Публикации: 3395
    • Профил
Re: Конвергиране от pdf във word, doc
« Отговор #14 -: Jun 20, 2013, 13:59 »
Има начин да се екстрактне суровият текст така както е от пдф-а.
Това става чрез тоола pdftotext. А pdftotext идва от пакета xpdf, който го има във всяка дистрибуция.

Код:
pdftotext  -nopgbrk -enc UTF-8 PrivateView2012.pdf out.txt
pdftotext  -nopgbrk -enc UTF-8 *pdf - > out.txt

А това съм ползвал за екстрактване на текст от много pdf файлове от една директория и обединяване на текста в един общ файл.
Код:
shopt -s extglob; for f in *.{pdf,PDF}; do echo -ne "Open: $f\n"; pdftotext -nopgbrk -enc UTF-8 "$f" - >> KF.txt; done


трябва малко да си поиграеш с опциите на pdftotext.
А след това екстрактнатият текст copy-paste в ОпенОфис.

Ако обаче текста е картинка - нямаш шансове и не се мъчи. Само ще си загубиш времето. Свястна OCR за линукс няма. Но и да има и трябва обучение...трябва и голяма резолюция на входните файлове...трябва и и някаква лингвистична поддръжка на Български.
« Последна редакция: Jun 20, 2013, 14:24 от Naka »
Активен

Perl - the only language that looks the same before and after encryption.