Автор Тема: Преобразуване PDF във DOC формат  (Прочетена 2571 пъти)

gogov1111

  • Напреднали
  • *****
  • Публикации: 181
    • Профил
Ползвам ubuntu 14.04. Някой ще ми каже ли програма за преобразуване на pdf файл във текстови формат.
Активен

jet

  • Напреднали
  • *****
  • Публикации: 3469
  • Distribution: debian
  • Window Manager: kde
    • Профил
Re: Преобразуване PDF във DOC формат
« Отговор #1 -: Feb 22, 2015, 00:07 »
AbiWord
Активен

..⢀⣴⠾⠻⢶⣦⠀
  ⣾⠁⢠⠒⠀⣿⡁
  ⢿⡄⠘⠷⠚⠋
  ⠈⠳⣄⠀⠀⠀⠀  Debian, the universal operating system.

go_fire

  • Global Moderator
  • Напреднали
  • *****
  • Публикации: 8911
  • Distribution: Дебиан Сид
  • Window Manager: ROX-Desktop / е17
  • кашик с гранатомет в танково поделение
    • Профил
    • WWW
Re: Преобразуване PDF във DOC формат
« Отговор #3 -: Feb 22, 2015, 08:43 »
Джет, освен ако няма нещо, което не знам предполагам имаш предвид обратният процес ???


@gogov1111 това е проблем, който е занимавал много глави. Информация има доста. Лошата новина е, че това е едно от местата, където сме по-назад. С черен хумор ще кажа, че при тяхната ОС положението е зле.

Както Малин вече се е включил, има някакви инструменти, включително конзолни. Разбира се може просто да копираш текста от едната програма в другата (сиреч преглеждачката за pdf в документният процесор). Имайки предвид, че pdf може да е контейнер за картинки, това не винаги е възможно. Отделно, че ако документа е правен професионално с издателска система (която не е TeX), пак няма да се случи.

В случаите когато става, губиш форматирането. Може да имаш и непредвидени проблеми. Например текст в колонки или карета много често се слива с другият/основният в едно голямо мазало. Това може да се избегне, ако имаш инструмент за избиране на поле, като този от kpdf/okular. Освен това разни украсителни елементи като номериране на страници и текст под линия също ще влязат в текста. Таблиците ще се представят като разхвърлян текст.

Картинките ги губиш. Тях можеш отделно да ги прехвърляш на ръка в растерен редактор (някакъв, няма изискване да е баш Гимп, дет' се вика и kpaint или tuxpaint ще свърши работа) и от там да ги запазваш, след което пак ръчно да ги слагаш на правилните места в новосформираният документ. Хубавото тук е, че независимо какъв е pdf, този крачен метод работи. Защото картинките ги губиш и при другия метод, който ще спомена.

А другият метод е с оптично разпознаване. 2008/9 за целта ползвах Куниформ, който има вградена функция за конверсия от pdf в doc. Положението е само малко по-добро. Някакво форматиране (съвсем основно) се запазва. Но както се досещаш, е възможно не особено вярно разпознаване, дори и за програми правени специално за кирилица и имащи български, като цитираната.

Едно време (предполагам и сега) услугата на Гошовица — документи, имаше възможност да качваш pdf и да ти ги показва като html. С нея може да запазиш дори картинките и повечето основно форматиране. Зад гърба ѝ работи добрият стар Тесеракт, но явно са го човъркали, защото се справя по-добре от оригинала. 

И последното, което практикувам основно напоследък, е да редактирам самият pdf. За целта има програми като pdfedit, но с няколко идеи по-добре е в ОО.о/Ло, където вече не е необходимо да си инсталираш добавката, тя е вече е вградена. Но за по-старите трети версии, тя още е налична. Все пак в четвъртите версии е поработено още малко по нея и се справя мъничко по-добре.

При този метод, нищо не губиш (за pdfedit и стари версии на приставката не е особено сигурно), но документа леко се счупва и трябва мъничко ръчно донагласяване. Работата и с двете посочени от мен програми е лесна, но мудна и досадна. Все пак pdf е правен, за да не се редактира и това, което са постигнали е направо впечатляващо.

Успех!
« Последна редакция: Feb 22, 2015, 08:49 от go_fire »
Активен

В $por4e2 e истината  ;)

***

Aко даваха стипендия за най-глупави, щях да съм човека с най-много Mини Kупъри

***

Reborn since 1998 || 15.09.2007 totally М$ free && conscience clear

4096bits

  • Напреднали
  • *****
  • Публикации: 7509
    • Профил
Re: Преобразуване PDF във DOC формат
« Отговор #4 -: Feb 22, 2015, 09:45 »
go-fire го спомена, аз също ще предложа, първо да се конвертира във html.
Активен

As they say in Mexico, "Dasvidaniya!" Down there, that's two vidaniyas.

Naka

  • Напреднали
  • *****
  • Публикации: 3467
    • Профил
Re: Преобразуване PDF във DOC формат
« Отговор #5 -: Feb 22, 2015, 10:35 »
Аз това съм си записал и съм ги ползвал:

pdftotext  -nopgbrk -enc UTF-8 PrivateView2012.pdf false.txt
pdftotext  -nopgbrk -enc UTF-8 *pdf - > KF.txt


# когато е на един ред след [for f in *]; и преди [do] се слага точка и запетайка. Но след [do] НЕ се слага ;
# "$f" трябва да е в кавички иначе не може да обработва имена на файлове с паузи по средата. 

shopt -s extglob; for f in *.{pdf,PDF}; do echo -ne "Open: $f\n"; pdftotext -nopgbrk -enc UTF-8 "$f" - >> KF.txt; done


------------------------
за екстракването на снимки от пдф има няколко начина: със gs (ghostscript), convert (от image magick) и pdfimages

като gs и pdfimages просто рендват(преобразуват) текущата страница барабар с текста в картинка с определена резолюция - т.е. това не е никакво екстрактване, но по някога се налага. а  gs се справя в пъти по добре от convert. Това с gs и convert няма връзка с темата но понеже съм си го записал за протокола ги поствам и тях.

А pdfimages е истинско екстракване на картинките от pdf-а така както са вмъкнати, без конверсия. 'pdfimages' идва от пакета 'xpdf'

-----------------------------------------------------------
ехтрактване на снимки от pdf така като са:

pdfimages -j in.pdf OUT_BASENAME

-j ако има jpg снимки в пдф-а тази опция ги запазва и ги екстраква също като jpg, без преобразуване

---------------------------------------------------------
gs -sDEVICE=pnggray -dFirstPage=3 -dLastPage=3 -dBATCH -dNOPAUSE -sOutputFile=out-%d.png -r600 in.pdf
или само
gs -sDEVICE=pnggray -sOutputFile=out-%d.png -r600 in.pdf

-sDEVICE има много варянти за изхода към който ще се преобразува 'gs -help' ги показва всичките. в горният пример е зададено да рендва в черно-бяла png картинка.
-dBATCH -dNOPAUSE са за това да не пита а само да се изпълни и да се върне в шела.
нормално gs преобрзува всичко от 1 до 72 страница и на всяка нова страница спира с пауза и пита за продължение и
освен това като си свърши работата вслиза в командният си интерпретатор gs>
-dFirstPage=3 -dLastPage=3 ако трябва специфична страница само да се се изкара.
-r600 600dpi x 600dpi
%d номерира изходните файлове: out-1.png out-2.png ... номерацията е поредна и няма нищо общо с номера на страницата която се екстрактва.

-------------------------------------------------------------------
convert -density 300 -resize 1280x1828 in.pdf[5] out.png

convert гълта страшно много памет и много лошо рендва фонтовете. Затова трябва да се ектрактва колкото се може с по-голямо dpi и вътрешно да се ресайзва.

« Последна редакция: Feb 22, 2015, 11:08 от Naka »
Активен

Perl - the only language that looks the same before and after encryption.

malin

  • Гост
Re: Преобразуване PDF във DOC формат
« Отговор #6 -: Feb 22, 2015, 11:41 »
За КДЕ може и така. Ама заради едно меню - да се сменя средата.
Активен

go_fire

  • Global Moderator
  • Напреднали
  • *****
  • Публикации: 8911
  • Distribution: Дебиан Сид
  • Window Manager: ROX-Desktop / е17
  • кашик с гранатомет в танково поделение
    • Профил
    • WWW
Re: Преобразуване PDF във DOC формат
« Отговор #7 -: Feb 23, 2015, 17:33 »
Малински, изтеглих и го разгледах. Това е нищо повече от гафична обвивка на pdftools. Всъщност можех да си спестя труда да разглеждам кода и да погледна направо документацията, но „два месеца практика, заместват два часа четене на документация“.
Активен

В $por4e2 e истината  ;)

***

Aко даваха стипендия за най-глупави, щях да съм човека с най-много Mини Kупъри

***

Reborn since 1998 || 15.09.2007 totally М$ free && conscience clear

ddantgwyn

  • Global Moderator
  • Напреднали
  • *****
  • Публикации: 1265
    • Профил
Re: Преобразуване PDF във DOC формат
« Отговор #8 -: Feb 24, 2015, 08:45 »
go-fire го спомена, аз също ще предложа, първо да се конвертира във html.

А защо никой не спомена(ва) вълшебните думи "Abbeey Finereader" ::)
Активен

the lamer's team honourable member

go_fire

  • Global Moderator
  • Напреднали
  • *****
  • Публикации: 8911
  • Distribution: Дебиан Сид
  • Window Manager: ROX-Desktop / е17
  • кашик с гранатомет в танково поделение
    • Профил
    • WWW
Re: Преобразуване PDF във DOC формат
« Отговор #9 -: Feb 24, 2015, 09:01 »
А защо никой не спомена(ва) вълшебните думи "Abbeey Finereader" ::)

Защото тези две думи никога не съм ги чувал и нищо не ми говорят. Предполагам положението с останалите в темата е същото, след като и те не са ги споменали. Поне в Дебиан такъв пакет няма. Не знам, може да го има във Федора или Сусе.


п.п. Струва ми се имаше някакъв комерсиален отпадък, който се казваше Файнрийдър, който не беше особено добър. Ако става въпрос за това, доколкото помня, то имаше версия за нас, която беше сървърна и без ГПИ, и струваше десетки хиляди. Ако става въпрос за това, то определено не си струва. Ако ще е собственически боклук, то поне да е нещо дето да е малко по-добро и разбира се на собственическа ОС. Сиреч не е за този форум.
« Последна редакция: Feb 24, 2015, 09:24 от go_fire »
Активен

В $por4e2 e истината  ;)

***

Aко даваха стипендия за най-глупави, щях да съм човека с най-много Mини Kупъри

***

Reborn since 1998 || 15.09.2007 totally М$ free && conscience clear

ddantgwyn

  • Global Moderator
  • Напреднали
  • *****
  • Публикации: 1265
    • Профил
Re: Преобразуване PDF във DOC формат
« Отговор #10 -: Feb 24, 2015, 12:59 »
А защо никой не спомена(ва) вълшебните думи "Abbeey Finereader" ::)

Защото тези две думи никога не съм ги чувал и нищо не ми говорят. Предполагам положението с останалите в темата е същото, след като и те не са ги споменали. Поне в Дебиан такъв пакет няма. Не знам, може да го има във Федора или Сусе.


п.п. Струва ми се имаше някакъв комерсиален отпадък, който се казваше Файнрийдър, който не беше особено добър. Ако става въпрос за това, доколкото помня, то имаше версия за нас, която беше сървърна и без ГПИ, и струваше десетки хиляди. Ако става въпрос за това, то определено не си струва. Ако ще е собственически боклук, то поне да е нещо дето да е малко по-добро и разбира се на собственическа ОС. Сиреч не е за този форум.

Точно за него става дума. И явно отдавна не си го ползвал или изобщо не си го ползвал, защото това е най-добрата програма за OCR, с която някога съм работил. Имам предвид за разпознаване на кирилица. Пуснаха ядрото на програмата под Linux, но не съм гледал скоро дали някой е направил читав frontend за него.

Очаквах да се заядеш за това, че трябва да се ползва под wine, ама явно си ме пощадил ::)
Активен

the lamer's team honourable member