Linux за българи: Форуми

Linux секция за начинаещи => Настройка на програми => Темата е започната от: vestitel в Jul 04, 2014, 09:35



Титла: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: vestitel в Jul 04, 2014, 09:35
Здравейте!
Имам един проблем който не мога да реша сам. Копирам част от текст от един pdf документ, но когато го сложа в LibreOffice излиза на йероглифи. Пробвах какви ли не идеи от гугъла но нищо не става. Дайте идея какво да направя за да стене четлив.


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: satir в Jul 05, 2014, 08:05
ами, много са възможните причини: локализацията е една от тях, както и Как е направен документа, а и с какво го отваряш, също така, и инсталираните шрифтове - също!

(http://s29.postimg.org/zcvnjdkfr/pdfdoc.png)


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: cybercop в Jul 05, 2014, 09:22
Причината е обичайна. Липсва шрифта, който е използван в оригиналният документ. Опитай да разбереш кой е и го добави.


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: 4096bits в Jul 05, 2014, 11:28
шрифт

винаги трябва да има достатъчно шрифтове.


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: cybercop в Jul 05, 2014, 11:51
Поне в това отношение няма разлики между операционните системи. Каквито и шрифтове да съм слагал в usr/share/fonts, винаги са ми излизали в списъка с достъпните.


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: 4096bits в Jul 05, 2014, 12:27
Много ми е странно, като се получат йероглифите и хората вдигат ръце и се почва, "това не ми го чете", "с какво да го отворя" и се почва едно инсталиране на програми, едно преобразуване на формати.....  :D


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: lunarvalley в Jul 05, 2014, 12:41
а какво, всъщност, се прави в такъв случай?


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: satir в Jul 05, 2014, 18:41
ми, не знам, какво всъщност се прави в такъв случай :ninam: на мен си ми се отвяря всичко :D :D :D


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: Златко в Jul 05, 2014, 21:30
Чакайте малко, идеята на PDF не беше ли да се вижда еднакво на всякакви програми и компютри? Нещо като снимка на екрана, не знам точната технология.
Иначе за какво да ползвам тежкия PDF, a да не си го направя в обикновен текстови файл или HTML?  ???


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: lunarvalley в Jul 05, 2014, 22:46
Цитат
да се вижда еднакво на всякакви програми и компютри


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: vestitel в Jul 06, 2014, 13:59
Здравейте!
pdf документите се четими. Проблемът е когато копирам част от текста и искам да го направя в ODF формат. Как да разбера какъв шрифт е pdf документа. Ето какво става когато част от pdf файл го поставя в ODF документ.
ÇÒ˘ÍÓ ÊË‚Ó, ‚Ò˘ÍÓ, ˘Ó ‰Ë¯‡, Ú‡Ë ‚ Ò· ÒË ÌÂÛ„‡ÒËÏËfl
ÛÒÚ!ÂÏ Í˙Ï Ò‚Ó·Ó‰‡. ë‚Ó·Ó‰‡Ú‡ - ÓÌÁË ‚Â΢‡‚ ˉ‡Î, ÍÓÈÚÓ
Ô!˂΢‡ ˜Ó‚¯ÍËÚ Ò˙!ˆ‡ ÓÚ Î˛Î͇ڇ, Ú‡ ˜‡Í ‰Ó „!Ó·‡. àχ ıÓ!‡,
Á‡ ÍÓËÚÓ Ò‚Ó·Ó‰‡Ú‡  ÚÓÎÍÓ‚‡ ‚‡Ê̇, ÍÓÎÍÓÚÓ ·ËÂÌÂÚÓ Ì‡ Ò˙!ˆÂÚÓ
ËÎË ‚˙Á‰Ûı‡. àχ ̇!Ó‰Ë, Á‡ ÍÓËÚÓ Úfl  ÒÍ˙Ô‡ Ò‚ÂÚËÌfl, ̇ ˜ËÈÚÓ
ÓÎÚ‡! ÒÚÓÎÂÚËfl ̇!‰ Ú ҇ Ô!Ë̇ÒflÎË ıËÎfl‰Ë ˜Ó‚¯ÍË ÊÂ!Ú‚Ë,
ÌÂËÁ·!ÓËÏÓ ˜ËÒÎÓ ÓÚ Ï˙˜ÂÌˈË. ᇠÏÌÓÁË̇ Ò‚Ó·Ó‰‡Ú‡  ÔÓ-ˆÂÌ̇ ÓÚ
Ò‡ÏËfl ÊË‚ÓÚ.
ë ‚Ò˘ÍÓ,


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: cybercop в Jul 06, 2014, 15:20
В ODF документ или просто в отворен документ на Libreoffice-writer ?
Какво ти изписва в прозрчето с шрифтовете ?
Пусни ми връзка за сваля този PDF файл и да го погледна.


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: neter в Jul 06, 2014, 15:56
Чакайте малко, идеята на PDF не беше ли да се вижда еднакво на всякакви програми и компютри? Нещо като снимка на екрана, не знам точната технология.
Не е като снимка на екрана - просто във файла се съдържа всичко необходимо за правилното му изобразяване, включително и самите шрифтове. Другите разпространени файлови формати за документи ползват шрифтовете, инсталирани в системата.

Как да разбера какъв шрифт е pdf документа.
Може да са няколко шрифта - няма ограничение всичкият текст в PDF файла да е изписан с един шрифт. Ако PDF файлът не е кодиран може да го отвориш с някой текстови редактор и да намериш всички FontName описания в него. Може и в конзола с команда
Цитат
strings file.pdf | grep FontName


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: vestitel в Jul 07, 2014, 08:33
Ето линк към pdf файла.
http://www.sviatost.info/biblioteka/cvetan_litov_serm_bg---tom_2_nov_zavet.pdf


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: annikoloff в Jul 07, 2014, 09:23
Опасявам се, че единственото, което можеш да направиш, за да стане "четлив", е OCR.
Това е, защото глифовете в този файл не съответстват на тяхната текстова стойност. PDF файловете не са като текстовите - имаш си ASCII/UNICODE таблица и се знае, че символ с номер XXX има значение YYY и избрания шрифт го визуализира като ZZZ. В PDF-а си има собствено съответствие между кодовете на символите и тяхното значение. Читавите програми за създаване на PDF файлове гледат да направят това съответствие да е стандартно (т.е. да бъде както в ASCII/UNICODE), но този PDF файл не е такъв. Опитай например да потърсиш някоя дума вътре в него - няма значение с кой четец. Той няма да я намери, дори и да я виждаш че е там. Това е, защото при търсенето ще се използва ASCII/UNICODE таблица за конвертирането до кодове на символите, и съответно ще се получи нещо различно от кодовете, които са заложени в PDF файла.

ПП Мисля си, че може би е възможно с някакъв софтуер за редактиране на PDF файлове (и малко играча от твоя страна) да дефинираш подходяща CMAP таблица в този файл. Поне на теория трябва да се получи. Не съм ползвал такъв софтуер и не знам как се прави, но ако ти е важно - потърси и опитай.


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: neter в Jul 07, 2014, 10:30
Прикачвам тук архив с извлечените от файла шрифтове. Разархивираш, копираш папката в /usr/share/fonts/truetype (ако нямаш такава папка, създай я; трябват ти root права за писане там), след което изпълняваш командата (пак с root права или със sudo отпред):
Цитат
fc-cache -fv
Ако ти е достатъчно шрифтовете да са достъпни само от твоя потребител, а не от цялата система, може да копираш папката само в /home/твоят-потребител/.fonts (ако нямаш такава папка, създай я) и да изпълниш горната команда без root права и без sudo отпред.
Не забравяй да затвориш и отвориш наново LibreOffice-а, за да може да си зареди новите шрифтове!

С така инсталираните шрифтове текстът от PDF файла се копира четливо, но с грешки. В пасажа, който копирах, забелязах, че навсякъде "р" е заменено с "!", а "я" - с "fl". С другите букви няма проблем, като в този пасаж не присъства само "ь" (ер малък). Ти ще си го провериш има ли проблем с него.

П.П.: Забравих да кажа, че трябва да се има предвид, че този текст може да се чете само с тези шрифтове. Ако след копирането му в LibreOffice се опиташ да му смениш шрифта отново ще получиш нечетим текст. Същото ще се случи и ако копираш текста в редактор, който няма възможност за динамична смяна на шрифта и е настроен да работи с друг шрифт (като Gedit, Leafpad и т.н.). Ако имаш нужда от смяна на шрифта ползвай предложенията в поста на annikoloff!


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: vestitel в Jul 07, 2014, 17:26
Нетер!
Благодаря ти за шрифтовете.
Добра работа свършиха.
По какъв начин ги измъкна от файла.


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: neter в Jul 07, 2014, 18:09
В случая ползвах ExtractPDF.com ($2), че го имах в отметките от един друг случай преди време. Но тук ($2) попадам на добър списък от начини за извличане на шрифтове от PDF-и. Сега пробвах отваряне на PDF-а с FontForge (второто предложение в списъка) и си отваря шрифтовете, можеш и да ги запазиш (гледам е богато и на опции как да ги запазиш), но пък виждам и, че ако във FontForge отворя шрифтовете, които извлякох чрез онзи сайт, и сравня визуално таблиците със сега извлечените шрифтове от PDF-а, те се различават като подредба, но пък май всички си отговарят на същите кодове. Възможно е различните инструменти да предоставят различен успех и качество при извличането на шрифтовете, та е възможно някой от вариантите да извлече шрифтовете така, че да няма проблем и с проблемните по-горе букви "р" и "я". Може да пробваш и да си редактираш и прерисуваш шрифтовете така, че сам да поправиш този проблем. Ако ти е интересно, поиграй си!

Имай предвид, че повечето PDF файлове (твоят също) не съдържат целите шрифтове, които са използвани, в себе си, а само тези части от таблиците (тези символи), които са използвани в PDF-а. Можеш да забележиш, че в извлечения HGCYIC шрифт за цифри има само от 1 до 4. Ако попаднеш на друг PDF, в който са ползвани символи, които не са ползвани в сегашния, ще трябва да извлечеш шрифтовете наново, иначе броят на грешките ще се увеличи. А ако имаш намерение да ползваш тези шрифтове и за лично пълноценно ползване ще трябва да си изтеглиш (евентуално и купиш) пълните им варианти или да си ги довършиш по друг начин.


Титла: Re: Копиран текст от pdf документ излиза на ероглифи
Публикувано от: satir в Jul 08, 2014, 09:01
провокиран от темата инсталирах един интересен инструмент : PDF Mod 0.9.1