Автор Тема: Копиран текст от pdf документ излиза на ероглифи  (Прочетена 5507 пъти)

vestitel

  • Напреднали
  • *****
  • Публикации: 12
    • Профил
Здравейте!
Имам един проблем който не мога да реша сам. Копирам част от текст от един pdf документ, но когато го сложа в LibreOffice излиза на йероглифи. Пробвах какви ли не идеи от гугъла но нищо не става. Дайте идея какво да направя за да стене четлив.
Активен

satir

  • Напреднали
  • *****
  • Публикации: 1073
  • Distribution: FreeBSD-10.1 & LMDE
  • Window Manager: i prefer MATE
    • Профил
    • WWW
ами, много са възможните причини: локализацията е една от тях, както и Как е направен документа, а и с какво го отваряш, също така, и инсталираните шрифтове - също!

« Последна редакция: Jul 05, 2014, 08:11 от satir »
Активен

cybercop

  • Напреднали
  • *****
  • Публикации: 5626
  • Distribution: Ubuntu LTS, CENTOS 6.x
  • Window Manager: Xfce, Gnome 2
    • Профил
Причината е обичайна. Липсва шрифта, който е използван в оригиналният документ. Опитай да разбереш кой е и го добави.
Активен

Ползването на Linux води до пристрастяване. Факт.
http://s19.postimg.cc/4oajwoq5v/xenial2.png

4096bits

  • Напреднали
  • *****
  • Публикации: 6201
    • Профил
шрифт

винаги трябва да има достатъчно шрифтове.
Активен

As they say in Mexico, "Dasvidaniya!" Down there, that's two vidaniyas.

cybercop

  • Напреднали
  • *****
  • Публикации: 5626
  • Distribution: Ubuntu LTS, CENTOS 6.x
  • Window Manager: Xfce, Gnome 2
    • Профил
Поне в това отношение няма разлики между операционните системи. Каквито и шрифтове да съм слагал в usr/share/fonts, винаги са ми излизали в списъка с достъпните.
Активен

Ползването на Linux води до пристрастяване. Факт.
http://s19.postimg.cc/4oajwoq5v/xenial2.png

4096bits

  • Напреднали
  • *****
  • Публикации: 6201
    • Профил
Много ми е странно, като се получат йероглифите и хората вдигат ръце и се почва, "това не ми го чете", "с какво да го отворя" и се почва едно инсталиране на програми, едно преобразуване на формати.....  :D
Активен

As they say in Mexico, "Dasvidaniya!" Down there, that's two vidaniyas.

lunarvalley

  • Гост
а какво, всъщност, се прави в такъв случай?
Активен

satir

  • Напреднали
  • *****
  • Публикации: 1073
  • Distribution: FreeBSD-10.1 & LMDE
  • Window Manager: i prefer MATE
    • Профил
    • WWW
ми, не знам, какво всъщност се прави в такъв случай :ninam: на мен си ми се отвяря всичко :D :D :D
Активен

Златко

  • Напреднали
  • *****
  • Публикации: 2147
    • Профил
Чакайте малко, идеята на PDF не беше ли да се вижда еднакво на всякакви програми и компютри? Нещо като снимка на екрана, не знам точната технология.
Иначе за какво да ползвам тежкия PDF, a да не си го направя в обикновен текстови файл или HTML?  ???
Активен

Без правила няма игра

lunarvalley

  • Гост
Цитат
да се вижда еднакво на всякакви програми и компютри
Активен

vestitel

  • Напреднали
  • *****
  • Публикации: 12
    • Профил
Здравейте!
pdf документите се четими. Проблемът е когато копирам част от текста и искам да го направя в ODF формат. Как да разбера какъв шрифт е pdf документа. Ето какво става когато част от pdf файл го поставя в ODF документ.
ÇÒ˘ÍÓ ÊË‚Ó, ‚Ò˘ÍÓ, ˘Ó ‰Ë¯‡, Ú‡Ë ‚ Ò· ÒË ÌÂÛ„‡ÒËÏËfl
ÛÒÚ!ÂÏ Í˙Ï Ò‚Ó·Ó‰‡. ë‚Ó·Ó‰‡Ú‡ - ÓÌÁË ‚Â΢‡‚ ˉ‡Î, ÍÓÈÚÓ
Ô!˂΢‡ ˜Ó‚¯ÍËÚ Ò˙!ˆ‡ ÓÚ Î˛Î͇ڇ, Ú‡ ˜‡Í ‰Ó „!Ó·‡. àχ ıÓ!‡,
Á‡ ÍÓËÚÓ Ò‚Ó·Ó‰‡Ú‡  ÚÓÎÍÓ‚‡ ‚‡Ê̇, ÍÓÎÍÓÚÓ ·ËÂÌÂÚÓ Ì‡ Ò˙!ˆÂÚÓ
ËÎË ‚˙Á‰Ûı‡. àχ ̇!Ó‰Ë, Á‡ ÍÓËÚÓ Úfl  ÒÍ˙Ô‡ Ò‚ÂÚËÌfl, ̇ ˜ËÈÚÓ
ÓÎÚ‡! ÒÚÓÎÂÚËfl ̇!‰ Ú ҇ Ô!Ë̇ÒflÎË ıËÎfl‰Ë ˜Ó‚¯ÍË ÊÂ!Ú‚Ë,
ÌÂËÁ·!ÓËÏÓ ˜ËÒÎÓ ÓÚ Ï˙˜ÂÌˈË. ᇠÏÌÓÁË̇ Ò‚Ó·Ó‰‡Ú‡  ÔÓ-ˆÂÌ̇ ÓÚ
Ò‡ÏËfl ÊË‚ÓÚ.
ë ‚Ò˘ÍÓ,
Активен

cybercop

  • Напреднали
  • *****
  • Публикации: 5626
  • Distribution: Ubuntu LTS, CENTOS 6.x
  • Window Manager: Xfce, Gnome 2
    • Профил
В ODF документ или просто в отворен документ на Libreoffice-writer ?
Какво ти изписва в прозрчето с шрифтовете ?
Пусни ми връзка за сваля този PDF файл и да го погледна.
Активен

Ползването на Linux води до пристрастяване. Факт.
http://s19.postimg.cc/4oajwoq5v/xenial2.png

neter

  • Global Moderator
  • Напреднали
  • *****
  • Публикации: 3408
  • Distribution: Debian, SailfishOS, CentOS
  • Window Manager: LXDE, Lipstick
    • Профил
    • WWW
Чакайте малко, идеята на PDF не беше ли да се вижда еднакво на всякакви програми и компютри? Нещо като снимка на екрана, не знам точната технология.
Не е като снимка на екрана - просто във файла се съдържа всичко необходимо за правилното му изобразяване, включително и самите шрифтове. Другите разпространени файлови формати за документи ползват шрифтовете, инсталирани в системата.

Как да разбера какъв шрифт е pdf документа.
Може да са няколко шрифта - няма ограничение всичкият текст в PDF файла да е изписан с един шрифт. Ако PDF файлът не е кодиран може да го отвориш с някой текстови редактор и да намериш всички FontName описания в него. Може и в конзола с команда
Цитат
strings file.pdf | grep FontName
Активен

"Да си добре приспособен към болно общество не е признак за добро здраве" - Джиду Кришнамурти

vestitel

  • Напреднали
  • *****
  • Публикации: 12
    • Профил
Активен

annikoloff

  • Напреднали
  • *****
  • Публикации: 24
  • Distribution: Windows 8 Pro
    • Профил
Опасявам се, че единственото, което можеш да направиш, за да стане "четлив", е OCR.
Това е, защото глифовете в този файл не съответстват на тяхната текстова стойност. PDF файловете не са като текстовите - имаш си ASCII/UNICODE таблица и се знае, че символ с номер XXX има значение YYY и избрания шрифт го визуализира като ZZZ. В PDF-а си има собствено съответствие между кодовете на символите и тяхното значение. Читавите програми за създаване на PDF файлове гледат да направят това съответствие да е стандартно (т.е. да бъде както в ASCII/UNICODE), но този PDF файл не е такъв. Опитай например да потърсиш някоя дума вътре в него - няма значение с кой четец. Той няма да я намери, дори и да я виждаш че е там. Това е, защото при търсенето ще се използва ASCII/UNICODE таблица за конвертирането до кодове на символите, и съответно ще се получи нещо различно от кодовете, които са заложени в PDF файла.

ПП Мисля си, че може би е възможно с някакъв софтуер за редактиране на PDF файлове (и малко играча от твоя страна) да дефинираш подходяща CMAP таблица в този файл. Поне на теория трябва да се получи. Не съм ползвал такъв софтуер и не знам как се прави, но ако ти е важно - потърси и опитай.
« Последна редакция: Jul 07, 2014, 09:26 от annikoloff »
Активен

Нямам време да се занимавам с глупости. Затова ползвам Windows.