Автор Тема: Копиран текст от pdf документ излиза на ероглифи  (Прочетена 5526 пъти)

neter

  • Global Moderator
  • Напреднали
  • *****
  • Публикации: 3408
  • Distribution: Debian, SailfishOS, CentOS
  • Window Manager: LXDE, Lipstick
    • Профил
    • WWW
Прикачвам тук архив с извлечените от файла шрифтове. Разархивираш, копираш папката в /usr/share/fonts/truetype (ако нямаш такава папка, създай я; трябват ти root права за писане там), след което изпълняваш командата (пак с root права или със sudo отпред):
Цитат
fc-cache -fv
Ако ти е достатъчно шрифтовете да са достъпни само от твоя потребител, а не от цялата система, може да копираш папката само в /home/твоят-потребител/.fonts (ако нямаш такава папка, създай я) и да изпълниш горната команда без root права и без sudo отпред.
Не забравяй да затвориш и отвориш наново LibreOffice-а, за да може да си зареди новите шрифтове!

С така инсталираните шрифтове текстът от PDF файла се копира четливо, но с грешки. В пасажа, който копирах, забелязах, че навсякъде "р" е заменено с "!", а "я" - с "fl". С другите букви няма проблем, като в този пасаж не присъства само "ь" (ер малък). Ти ще си го провериш има ли проблем с него.

П.П.: Забравих да кажа, че трябва да се има предвид, че този текст може да се чете само с тези шрифтове. Ако след копирането му в LibreOffice се опиташ да му смениш шрифта отново ще получиш нечетим текст. Същото ще се случи и ако копираш текста в редактор, който няма възможност за динамична смяна на шрифта и е настроен да работи с друг шрифт (като Gedit, Leafpad и т.н.). Ако имаш нужда от смяна на шрифта ползвай предложенията в поста на annikoloff!
« Последна редакция: Jul 07, 2014, 11:28 от neter »
Активен

"Да си добре приспособен към болно общество не е признак за добро здраве" - Джиду Кришнамурти

vestitel

  • Напреднали
  • *****
  • Публикации: 12
    • Профил
Нетер!
Благодаря ти за шрифтовете.
Добра работа свършиха.
По какъв начин ги измъкна от файла.
Активен

neter

  • Global Moderator
  • Напреднали
  • *****
  • Публикации: 3408
  • Distribution: Debian, SailfishOS, CentOS
  • Window Manager: LXDE, Lipstick
    • Профил
    • WWW
В случая ползвах ExtractPDF.com, че го имах в отметките от един друг случай преди време. Но тук попадам на добър списък от начини за извличане на шрифтове от PDF-и. Сега пробвах отваряне на PDF-а с FontForge (второто предложение в списъка) и си отваря шрифтовете, можеш и да ги запазиш (гледам е богато и на опции как да ги запазиш), но пък виждам и, че ако във FontForge отворя шрифтовете, които извлякох чрез онзи сайт, и сравня визуално таблиците със сега извлечените шрифтове от PDF-а, те се различават като подредба, но пък май всички си отговарят на същите кодове. Възможно е различните инструменти да предоставят различен успех и качество при извличането на шрифтовете, та е възможно някой от вариантите да извлече шрифтовете така, че да няма проблем и с проблемните по-горе букви "р" и "я". Може да пробваш и да си редактираш и прерисуваш шрифтовете така, че сам да поправиш този проблем. Ако ти е интересно, поиграй си!

Имай предвид, че повечето PDF файлове (твоят също) не съдържат целите шрифтове, които са използвани, в себе си, а само тези части от таблиците (тези символи), които са използвани в PDF-а. Можеш да забележиш, че в извлечения HGCYIC шрифт за цифри има само от 1 до 4. Ако попаднеш на друг PDF, в който са ползвани символи, които не са ползвани в сегашния, ще трябва да извлечеш шрифтовете наново, иначе броят на грешките ще се увеличи. А ако имаш намерение да ползваш тези шрифтове и за лично пълноценно ползване ще трябва да си изтеглиш (евентуално и купиш) пълните им варианти или да си ги довършиш по друг начин.
Активен

"Да си добре приспособен към болно общество не е признак за добро здраве" - Джиду Кришнамурти

satir

  • Напреднали
  • *****
  • Публикации: 1073
  • Distribution: FreeBSD-10.1 & LMDE
  • Window Manager: i prefer MATE
    • Профил
    • WWW
провокиран от темата инсталирах един интересен инструмент : PDF Mod 0.9.1
Активен