Автор Тема: От PDF в "машинно четим" формат  (Прочетена 2185 пъти)

danaildr

  • Напреднали
  • *****
  • Публикации: 158
  • Distribution: Debian Buster
  • Window Manager: KDE Plasma
    • Профил
Здравейте,
Заглавието е малко подвеждащо, защото не точно това трябва да се случи. Само по себе си конвертирането от един в друг формат не е кой знае каква работа, но просто не знам как да му измисля заглавие на моя проблем. А проблема не е толкова проблем колкото затруднение. Както са казали хората, ако един проблем се решава с пари, то той не е проблем а разход.
Та сега по темата.
В ей туй файлче има списък с личните и фамилни имена използвани в България (да малко е старо но ...)
Та искам да извадя имената и съответно обясненията за тях, както и да ги вкарам в някакъв csv или подобен файл, от който лесно да се прелеят в база данни (MySQL, MariaDB, MongoDB или друга), за последващо използване.
Документа е "само" 620 (реално до 40 страница няма нищо от това което ми трябва) страници, варианта с ръчно въвеждане съм го отавил за най-накрая ако не се намери друг начин.
Активен

Закона на Мърфи е: Точното определение и логичното по-нататъшно развитие на общото ентропично учение, според което всички частички във вселената се стремят да се подредят във възможно най-голям безпорядък. Познанието, че на път за там споменатите частички поне веднъж ти се изпречват в краката.

remotexx

  • Напреднали
  • *****
  • Публикации: 1252
    • Профил
Re: От PDF в "машинно четим" формат
« Отговор #1 -: May 27, 2021, 07:02 »
Файлчето е недостъпно (за хора без акаунт на GDrive) - сложи го на някой безплатен публичен адрес па макар и с парола (ако е толкоз секретно), а и адреса за сваляне по подразбиране няма да е публичен тъй че риска е минимален ..а и предполагам ресурса е публичен (или поне е бил навремето) ама що ПДФ? мисля че имаше нейде готова база данни и то с бая повече имена ..явно е заради 'обяснението' (ама какво ли ще е туй обяснение)

Sign in
to continue to Google Drive

 :o ::) :'(

П.П. Имаше един такъв дето даже и Гогата го ползва и не трябва да си прави човек регистрация само да дръпне едно файлче - mega.nz ли беше

П.П.П. Че те май само от НАП-а изтекоха повече имена ..е сега вярно че имат много повтарящи се ама колко ли имена ще се съберат на 600 стр. спрямо 1 млн. реда в масив от близо 11 GB
'При преглед на информацията в тях "Капитал" откри бази данни с по над 1 млн. реда, съдържащи ЕГН, имена, адреси и дори доходи.'
https://www.capital.bg/politika_i_ikonomika/bulgaria/2019/07/15/3938624_ot_nap_sa_iztekli_lichni_danni_na_milioni_bulgarski/
« Последна редакция: May 27, 2021, 07:09 от remotexx »
Активен

go_fire

  • Global Moderator
  • Напреднали
  • *****
  • Публикации: 6526
  • Distribution: Дебиан Сид
  • Window Manager: ROX-Desktop / е17
  • кашик с гранатомет в танково поделение
    • Профил
    • WWW
Re: От PDF в "машинно четим" формат
« Отговор #2 -: May 27, 2021, 08:00 »
DDantgwyn ме светна за това Мега. Не, че съм го ползвал кой знае колко много, но е доста прилично направен. Има клиент, който се интегрира включително с КДЕ и Гном, работи включително на стари дистрибуции и който е силно препоръчителен, ако например искаш да качиш множество документи наведнъж. Но и по-принцип е по-бързия вариант.

Не харесвам особено Sync-a. Той е двустранен, но ако на едното място изтриеш нещо или го преместиш, то на другото място не се трие, а местенето е просто копиране. Така получаваш по няколко версии на едно и също, което за мен е значителен проблем.
Активен

В $por4e2 e истината  ;)

***

Aко даваха стипендия за най-глупави, щях да съм човека с най-много Mини Kупъри

***

Reborn since 1998 || 15.09.2007 totally М$ free && conscience clear

danaildr

  • Напреднали
  • *****
  • Публикации: 158
  • Distribution: Debian Buster
  • Window Manager: KDE Plasma
    • Профил
Re: От PDF в "машинно четим" формат
« Отговор #3 -: May 27, 2021, 08:24 »
Файлчето е недостъпно (за хора без акаунт на GDrive) - сложи го на някой безплатен публичен адрес па макар и с парола (ако е толкоз секретно), а и адреса за сваляне по подразбиране няма да е публичен тъй че риска е минимален ..а и предполагам ресурса е публичен (или поне е бил навремето) ама що ПДФ? мисля че имаше нейде готова база данни и то с бая повече имена ..явно е заради 'обяснението' (ама какво ли ще е туй обяснение)

Sign in
to continue to Google Drive

 :o ::) :'(

П.П. Имаше един такъв дето даже и Гогата го ползва и не трябва да си прави човек регистрация само да дръпне едно файлче - mega.nz ли беше

П.П.П. Че те май само от НАП-а изтекоха повече имена ..е сега вярно че имат много повтарящи се ама колко ли имена ще се съберат на 600 стр. спрямо 1 млн. реда в масив от близо 11 GB
'При преглед на информацията в тях "Капитал" откри бази данни с по над 1 млн. реда, съдържащи ЕГН, имена, адреси и дори доходи.'
https://www.capital.bg/politika_i_ikonomika/bulgaria/2019/07/15/3938624_ot_nap_sa_iztekli_lichni_danni_na_milioni_bulgarski/
Не е секретно файлчето, това е една книга издадена 1969. намерих я само в такъв формат. Изобщо не се усетих че гугълци са такива гадове. Ето и линк  в mega.nz

Относно обяснението - ще дам един пример от страница 405
Цитат
Проститутка ж   —    от проститутка.Според съобщение  от трета  ръка:  бащата билработник във Франция,  дето имал приятелка,която    другарите    му     наричали    „прости­тутка“;   от   нея   запазил   добри   спомени    икогато  се  върнал,  оженил  се  и  станал  баща,кръстил  така  дъщеря  си.   Единичен  случай,Пернишко.
Активен

Закона на Мърфи е: Точното определение и логичното по-нататъшно развитие на общото ентропично учение, според което всички частички във вселената се стремят да се подредят във възможно най-голям безпорядък. Познанието, че на път за там споменатите частички поне веднъж ти се изпречват в краката.

go_fire

  • Global Moderator
  • Напреднали
  • *****
  • Публикации: 6526
  • Distribution: Дебиан Сид
  • Window Manager: ROX-Desktop / е17
  • кашик с гранатомет в танково поделение
    • Профил
    • WWW
Re: От PDF в "машинно четим" формат
« Отговор #4 -: May 27, 2021, 08:38 »
Помислих си, че за речник става дума.

Лошата новина е, че някакъв OCR (например Tesseract или Cuneyform) може и да помогне маленко, но като цяло ще си е ръчна работа. Трябва си преписване. А след като самия ти няма да правиш речник, то си е излишно.

Идеята на Ремо за базата на НАП никак не е лишена от смисъл. На твое място точно това щях да сторя.

Имай предвид, че българина прогресивно обеднява откъм лични имена. Остават основни и взимаме влияния от вън — Виктор, Ванеса… Засега държим фронта при фамилните имена, макар точно те да бяха ударени в тоталитаризма, но след него много народ си ги върна.

Сиреч този речник до голяма степен е остарял и неактуален. Списъка на НАП е по-вярното нещо.




п.п. Учил съм френски като ученик, но вярно имаше нещо като проститют или нещо такова за лека жена. Сега се замислям, че тази дума явно е френска и не значи нищо на български, извън старата лакардия, че е жена, която е проста, но за сметка на това много се тутка.
Активен

В $por4e2 e истината  ;)

***

Aко даваха стипендия за най-глупави, щях да съм човека с най-много Mини Kупъри

***

Reborn since 1998 || 15.09.2007 totally М$ free && conscience clear

danaildr

  • Напреднали
  • *****
  • Публикации: 158
  • Distribution: Debian Buster
  • Window Manager: KDE Plasma
    • Профил
Re: От PDF в "машинно четим" формат
« Отговор #5 -: May 27, 2021, 08:55 »
Не искам да събирам просто имена, по-скоро искам да си направя нещо като речник на имената. Кое име от къде произхожда и т.н.
Активен

Закона на Мърфи е: Точното определение и логичното по-нататъшно развитие на общото ентропично учение, според което всички частички във вселената се стремят да се подредят във възможно най-голям безпорядък. Познанието, че на път за там споменатите частички поне веднъж ти се изпречват в краката.

4096bits

  • Напреднали
  • *****
  • Публикации: 3879
    • Профил
Re: От PDF в "машинно четим" формат
« Отговор #6 -: May 27, 2021, 10:37 »
Ако се направи на текст, може да се извлече и автоматично. Ръчната работа си е хамалогия, за такова нещо.
Активен

As they say in Mexico, "Dasvidaniya!" Down there, that's two vidaniyas.

jet

  • Напреднали
  • *****
  • Публикации: 2282
  • Distribution: debian
  • Window Manager: kde
    • Профил
Re: От PDF в "машинно четим" формат
« Отговор #7 -: May 27, 2021, 15:59 »
Пробвах:
https://www.onlineocr.net/
Виж как изглежда в текст:

Код:
При същите условия се схваща като умалително и окончанието -ча,
нещо повече — то съдържа по-силна умалителност от -ка (Дана — Данка —
Данча, Дена — Денка — Денча, Йона — Йонка — Йонча, Лена — Ленка —
Ленча, Мира — Мирка — Мирча).
От имената на -ия формите с -ийка са винаги умалителни (Марийка,
Севастийка, Сийка, Софийка, Софранийка, Спасийка), но тяхната умали­
телност намалява, когато стоят в опозиция с мъжко име на -ия (Драгийка,
Илийка), а от много женски имена на -ия изобщо не се срещат умалителни
форми.
От имената на -ая, -ея, -оя се образуват умалителни на -айка, -ейка,
-ойка (Доротейка, Драгайка, Зойка, Малейка), като и тук опозицията с
мъжко име намалява или напълно изключва умалителността (Благойка,
Исайка, Койка, Радивойка).
М н о ж е с т в е н о ч и с л о . Както при мъжките имена, форми за
множествено число се употребяват малко. От имената на -а или -я множе­
ственото число окончава на -и или -ини (Марии, Пени, Радини, Цветани),
а от имената на -е или -и окончанието върви по типа на средния род (Лен-
чета, Лилита, Мичета).
ВИДОИЗМЕНЯНЕ НА ИМЕНАТА
Личните имена се изменят по форма и звуков състав много повече, от-
колкото другите думи в езика. Причините за това са различни — неправи­
лен изговор на самите току-що проговорили деца, израз на гальовност,
небрежен изговор, уподобяване по други имена, за разлика от други, близки
или еднакви по форма имена, добавяне на нови окончания и т. н.
При такива промени не се държи сметка за корена или значението на
основното име, нито се прави разлика между чуждите по произход и бъл­
гарските, славянските, които в много случаи напълно се десемантизират.
Колкото и различни да са промените на имената, все пак могат да се
посочат някои правила и закономерности.
1 ) И з п у щ а н е н а н а ч а л н и с р и ч к и . Когато началните
една, две, дори три срички са без ударение, те могат да отпаднат и съкрате­
ното име започва с ударената сричка, към която обикновено се прибавя
ново окончание: Невена — Вена, Драгана, Гергана — Гана, Костадин,
Господин — Диньо, Дино, Неделчо — Делчо, Параскева — Кева, Ра-
душ — Душко, Тодора — Дора и т. н.
2) И з п у щ а н е на к р а й н и с р и ч к и . От основното име
се взема само първата сричка, независимо дали е под ударение, или без-
ударна. Към нея може да се запази една или две съгласни от изпуснатата
част на името и тогава идва новото окончание: Веселина — Веса, Гълъбина —
Гъла, Лазар — Лазо, Лако, Лальо, Лашо, Мария — Мара, Мата, Маца,
Надежда — Надя, Неделчо, Недялко — Недьо, Недко, Берислав, Бери-
мир — Беро, Алдомир — Алдьо и т. н.
3) Д в о й н о в ъ н ш н о и з п у щ а н е . От някои по-дълги имена
се взема само една или две вътрешни срички, а началните и крайните от­
падат: Анастасия — Наета, Атанас, Анастас — Тако, Танчо,* Ташо.
4) И з п у щ а н е н а в ъ т р е ш н и с р и ч к и и л и з в у к о в е .
Изоставят се част от вътрешните срички или звукове на основното име:
Петкана, Петрана — Пена, Пенка, Величко — Вичо, Захари — Заре, Цве-
22

Код:
Просвиров ф — or диал. *просвира ’об­
редно хлебче, просфора’.
Просенйков ф — от просенйк ’царевичен
хляб’. Пловдив.
Просенйчков ф — от диал. *просенйчко
’който яде просенйк’; вж. Просеников.
Лясковец, 1893, Русе.
Просешки ф — от просяк (били много
бедни). Бела Слатина.
Просййски ф — от просия (дядото бил
заможен, имал доста овце, но обичал да
проси). Берковица.
Просков ф. Кюстендил.
Просото пр — (може би „газел из просото“).
Кюстендил, 1857.
Простаков ф — от прякор Простака. Раз­
град.
Проститутка ж — от проститутка.
Според съобщение от трета ръка: бащата бил
работник във Франция, дето имал приятелка,
която другарите му наричали „прости­
тутка“; от нея запазил добри спомени и
когато се върнал, оженил се и станал баща,
кръстил така дъщеря си. Единичен случай,
Пернишко.
Простов ф — навярно руско име. Бур­
гас, 1950.
Просяк пр — от просяк; срв. Просешки,
Просийски. Ярловци (Пиротско), 1845.
Прота ж — отгр T
cp
a>
xY
j ’първа’. Тетевен.
Протагеров ф — от Протогеров с преход
на предударното о в а. Русе, 1900.
Протасий м — гр. Ilpoxaotog, лат. Рго-
tasius — име на календарски светия. Вар­
на, р. 1896. Сопот, 1935. Протасиев ф.
Протич ф — от гр. лрФтос 'пръв, първе­
нец’. Търново, 1822, Велес, 1873, Кюстен­
дил, 1893, Кратово, 1942.
Проткин и Проткински ф — фонетична
форма на Продкин, Продкински.
Протогеров и Протогерски ф — от остар.
протогер ’селски глашатай* (гр. пршгбуерод).
Охрид, 1905, Пещера, Кюстендил.
Протопопов ф — от протопоп ’глав ен
свещеник’. Хасково, 1893, Казанлък, Кар-
ло во.
Протохрйстов и Протохрйстев ф — от
прото Христо (Христьо) = първият Христо
или Христьо Първенецът. Пловдив.
Профил м — от Профир с дисимилация
на второто р. Профилов ф. Варна.
Профир м — от Порфир с метатеза на
ор в ро. Стара Загора, 1900, Петелово,
Пчеларово (Кърджалийско). Профиров ф.
Стара Загора, 1б93, Петелово, Пчеларово,
Смолян, Станке Димитров, Пирот, Варна,
Банкя.
Профирка ж — женска форма от Профир.
Прохар м — от Прохор с преход на неу-
дареното о в а. Прохаров ф. Самоковско.
Прохасков ф — чешко име, от prochazka
'разходка*.
Прохор м — гр. Пр6%ород ’който е пред-
хор, ръководител на хор’ — име на кален­
дарски светия. Прохоров ф.
Проценков ф — руско име (бащата русин)..
Разград, 1966.
Прочко м — видоизменено от Продан,
Прохор или друго подобно име. Прочков-
ф. Варна.
Прошко м — умалит. ог Прошо. Прош-
ков ф.
Прошо м — видоизменено от Продан иди­
от Прохор; срв. Пошо. Прошев ф.
Проя ж — женска форма срещу Пройо.
Лозенградско, 1920.
Прудхин и Пруткин ф.
Пруктович ф.
Прусаров ф — може би вм. *Просаров;
срв. Просаджиев. Горна Оряховица.
Прусев ф — може би грешка вм. Крусев.
Горна Оряховица, 1882.
Прусййски ф — нарочно видоизменено от
Просийски. Берковица.
Прухтович ф. Пловдив, Свищов.
Пръвка ж — умалит. от Първа. Берко­
вица, Врачеш (Ботевградско). Пръвкин и
Пръвкински ф. Лехчево (Михайловград­
ско).
Пръвул м — вм. Първул. Тетевен, 1648.
Пръвчо м — умалит. от Първи. Стара
Загора, 1884, Пирне (Айтоско), Карнобат,.
Пръвчев ф. Карнобат.
Пръдлаков ф — от прякор П ръдлак. Каб­
лешково (Поморийско).
Пръдлев ф — от прякор П ръдльо. Гру-
довско. Пръдльовци род в Етрополе.
Пръдлеков ф — от Пръдлев с вмъкнато
е к . Котел.
Пръжката пр — от пръж ка ’сръдлив.
човек’. Луковит.
Пръков ф. Велинград, Разложко.
Пръмов ф — може би видоизменено от
Примов (?) Войнягово (Карловско), Ка­
занлък.
Пръндачки и Пръндашки ф — може би
от диал. пръндавица ’гъба прахутка*.
Самоковско.
Прънчов ф — видоизменено от Брънчов
или от Пръвчев Згориград (Врачанско).
Пръстенчевф — отпръстенче. Етрополе,
Варна.
Прътев ф — от прът (висок и тънък като-
прът). Белица (Разложко), Благоевград.
Пръхчо м — от Пръвчо (Пръфчо) с пре­
ход на ф в х. Карнобат. Пр^ьхчев ф. Кар­
нобат, Айтос.
Пръцрагов ф. Рельово (Самоковско), Са­
моков, Карлово.
Пръче пр — от пръч (имал остра бра­
дичка, смърдял като пръч или нещо подоб­
но). Кюстендил, 1879. Пръчев ф. Калофер.
Пръшев ф — вм. Пършев. Стара Загора.
Пряков ф — от прякор П рекия или
нещо подобно. Русе.
409’
Активен

..⢀⣴⠾⠻⢶⣦⠀
  ⣾⠁⢠⠒⠀⣿⡁
  ⢿⡄⠘⠷⠚⠋
  ⠈⠳⣄⠀⠀⠀⠀  Debian, the universal operating system.

Naka

  • Напреднали
  • *****
  • Публикации: 2982
    • Профил
Re: От PDF в "машинно четим" формат
« Отговор #8 -: May 28, 2021, 15:11 »
Тове едно howto, което съм си го писал за себе си, как се екстрактва текст от pdf.
Не писах по-рано щото сега го намерих. ::)


pdftotext  -nopgbrk -enc UTF-8 PrivateView2012.pdf false.txt

pdftotext  -nopgbrk -enc UTF-8 *pdf - > KF.txt

# когато е на един ред след [for f in *]; и преди [do] се слага точка и запетайка. Но след [do] НЕ се слага ;
# "$f" трябва да е в кавички иначе не може да обработва имена на файлове с паузи по средата. 

shopt -s extglob; for f in *.{pdf,PDF}; do echo -ne "Open: $f\n"; pdftotext -nopgbrk -enc UTF-8 "$f" - >> KF.txt; done



Oбаче мен ме мъчи един  'екзистенциален' въпрос  ???

има файлове, които си личат че са сканирани. (като този). Обаче като го отворя с някой pdf четец (Okular) ми дава да копирам чист текст в клиборда. Как става това? Дали такива файлове имат вътрешно наред със графиката и вграден текст? или е някакъв динамичен OCR от четеца? Не ми се вярва да е така (динамичен OCR).



« Последна редакция: May 28, 2021, 15:46 от Naka »
Активен

Perl - the only language that looks the same before and after encryption.

10101

  • Напреднали
  • *****
  • Публикации: 361
  • Distribution: GNU LINUX
    • Профил
Re: От PDF в "машинно четим" формат
« Отговор #9 -: May 28, 2021, 23:39 »
Направих подобно упражнение но с google documents.
Качих файла в драйва, след което му казах да го отвори като документ..след около 30 сек вади текст но непозволява да се запише в docs поради някакви ограничения в размера.
Може да се копира текста страница по страница.. но пак е ръчна работа.
Наистина, както бе споменатo изглежда сканиран, то няма как да друго май.

П.С. вадил съм от чист pdf текста по горната формула.
Активен

А печат ?

Naka

  • Напреднали
  • *****
  • Публикации: 2982
    • Профил
Re: От PDF в "машинно четим" формат
« Отговор #10 -: May 29, 2021, 10:43 »
Да изглежда сканиран, но pdftotext вади целият текст, от всички страници. Пробвах го и работи. Най-вероятно в сканирания документ има вграден и пълния текст, който е OCR-нат още при създаването на документа. (текста наистина изглежда като OCR-нат и се нуждае от ръчна доооправка) Много такива пдф-и срещам напоследък. Може да е работа на Гого, за да може все пак да се търси и между сканираните пдф-и.

А pdftotext при мен (Ценстос) идва от пакета poppler-utils и то май по дифоулт от анакондата.

OCR за този документ не е необходим! Освен ако някой не иска да си поиграе и да го направи по-добре. Например в екстрактнатия техт липсват гръчките думи. Някои липсват други са тотално сбъркани.


« Последна редакция: May 29, 2021, 11:21 от Naka »
Активен

Perl - the only language that looks the same before and after encryption.

4096bits

  • Напреднали
  • *****
  • Публикации: 3879
    • Профил
Re: От PDF в "машинно четим" формат
« Отговор #11 -: May 30, 2021, 13:09 »
Хм!
Ако го имам форматиран така, както е, може би ще може да се спретне нещо, което да изплюе накрая csv или tsv ( tab separated values ) файл.

Инсталирах pdftotext ( който се оказа поредната Python-ска щуротия ) и ще видя, какво ще изкара. Дано го изплюе във вида, в който е и в документа.

Пробвах да чета документа и да измъкна текста с PyPDF2 обаче ми изкарва някакви щуротии. Не зная, каква е кодировката и нямам идея, как да проверя.

Предложения от @jet онлайн метод не приема толкова големи файлове.
« Последна редакция: May 30, 2021, 13:16 от 4096bits »
Активен

As they say in Mexico, "Dasvidaniya!" Down there, that's two vidaniyas.

Naka

  • Напреднали
  • *****
  • Публикации: 2982
    • Профил
Re: От PDF в "машинно четим" формат
« Отговор #12 -: May 30, 2021, 13:55 »
pdftotext изплюва чист txt файл. От това по-просто и по-съвместимо здраве му кажи. След това който иска да си го доработва, редактира и да си го прави в каквото си иска. Ако ще и в база до го вкарва.
Няма как текст в pdf да е стуктуриран подреден и т.н. все пак  pdf-а не е таблица, нито структуриран документ за данни.
« Последна редакция: May 30, 2021, 14:03 от Naka »
Активен

Perl - the only language that looks the same before and after encryption.

4096bits

  • Напреднали
  • *****
  • Публикации: 3879
    • Профил
Re: От PDF в "машинно четим" формат
« Отговор #13 -: May 30, 2021, 14:37 »
Не ме интересува друга структура от тази, да се спазва броя на интервалите, където има интервали в текста.
Например между двете колони на страницата.
Активен

As they say in Mexico, "Dasvidaniya!" Down there, that's two vidaniyas.

danaildr

  • Напреднали
  • *****
  • Публикации: 158
  • Distribution: Debian Buster
  • Window Manager: KDE Plasma
    • Профил
Re: От PDF в "машинно четим" формат
« Отговор #14 -: Jun 01, 2021, 20:52 »
Конвертрането на самия файл не е проблем, аз го имам конвертиран в текстов формат, 4.5MB е във текс.
Тук е целия файл -> цък
А тук е само частта с имената, всичко е в две колони -> цък
Мисля че този сормат е по-удачен -> цък

Първоначално дадох PDF файла, защото той е първоизточника.

Идеята ми е дали може да се конвертира в някакъв csv
« Последна редакция: Jun 01, 2021, 21:23 от danaildr »
Активен

Закона на Мърфи е: Точното определение и логичното по-нататъшно развитие на общото ентропично учение, според което всички частички във вселената се стремят да се подредят във възможно най-голям безпорядък. Познанието, че на път за там споменатите частички поне веднъж ти се изпречват в краката.