Отпечатай - От PDF в "машинно четим" формат

Титла: От PDF в "машинно четим" формат
Публикувано от: danaildr в May 26, 2021, 21:14

Здравейте,
Заглавието е малко подвеждащо, защото не точно това трябва да се случи. Само по себе си конвертирането от един в друг формат не е кой знае каква работа, но просто не знам как да му измисля заглавие на моя проблем. А проблема не е толкова проблем колкото затруднение. Както са казали хората, ако един проблем се решава с пари, то той не е проблем а разход.
Та сега по темата.
В ей туй файлче ($2) има списък с личните и фамилни имена използвани в България (да малко е старо но ...)
Та искам да извадя имената и съответно обясненията за тях, както и да ги вкарам в някакъв csv или подобен файл, от който лесно да се прелеят в база данни (MySQL, MariaDB, MongoDB или друга), за последващо използване.
Документа е "само" 620 (реално до 40 страница няма нищо от това което ми трябва) страници, варианта с ръчно въвеждане съм го отавил за най-накрая ако не се намери друг начин.

Титла: Re: От PDF в "машинно четим" формат
Публикувано от: remotexx в May 27, 2021, 07:02

Файлчето е недостъпно (за хора без акаунт на GDrive) - сложи го на някой безплатен публичен адрес па макар и с парола (ако е толкоз секретно), а и адреса за сваляне по подразбиране няма да е публичен тъй че риска е минимален ..а и предполагам ресурса е публичен (или поне е бил навремето) ама що ПДФ? мисля че имаше нейде готова база данни и то с бая повече имена ..явно е заради 'обяснението' (ама какво ли ще е туй обяснение)

Sign in
to continue to Google Drive
:o ::) :'(

П.П. Имаше един такъв дето даже и Гогата го ползва и не трябва да си прави човек регистрация само да дръпне едно файлче - mega.nz ли беше

П.П.П. Че те май само от НАП-а изтекоха повече имена ..е сега вярно че имат много повтарящи се ама колко ли имена ще се съберат на 600 стр. спрямо 1 млн. реда в масив от близо 11 GB
'При преглед на информацията в тях "Капитал" откри бази данни с по над 1 млн. реда, съдържащи ЕГН, имена, адреси и дори доходи.'
https://www.capital.bg/politika_i_ikonomika/bulgaria/2019/07/15/3938624_ot_nap_sa_iztekli_lichni_danni_na_milioni_bulgarski/

Титла: Re: От PDF в "машинно четим" формат
Публикувано от: go_fire в May 27, 2021, 08:00

DDantgwyn ме светна за това Мега. Не, че съм го ползвал кой знае колко много, но е доста прилично направен. Има клиент, който се интегрира включително с КДЕ и Гном, работи включително на стари дистрибуции и който е силно препоръчителен, ако например искаш да качиш множество документи наведнъж. Но и по-принцип е по-бързия вариант.

Не харесвам особено Sync-a. Той е двустранен, но ако на едното място изтриеш нещо или го преместиш, то на другото място не се трие, а местенето е просто копиране. Така получаваш по няколко версии на едно и също, което за мен е значителен проблем.

Титла: Re: От PDF в "машинно четим" формат
Публикувано от: danaildr в May 27, 2021, 08:24

Цитат на: remotexx в May 27, 2021, 07:02

Файлчето е недостъпно (за хора без акаунт на GDrive) - сложи го на някой безплатен публичен адрес па макар и с парола (ако е толкоз секретно), а и адреса за сваляне по подразбиране няма да е публичен тъй че риска е минимален ..а и предполагам ресурса е публичен (или поне е бил навремето) ама що ПДФ? мисля че имаше нейде готова база данни и то с бая повече имена ..явно е заради 'обяснението' (ама какво ли ще е туй обяснение)

Sign in
to continue to Google Drive
:o ::) :'(

П.П. Имаше един такъв дето даже и Гогата го ползва и не трябва да си прави човек регистрация само да дръпне едно файлче - mega.nz ли беше

П.П.П. Че те май само от НАП-а изтекоха повече имена ..е сега вярно че имат много повтарящи се ама колко ли имена ще се съберат на 600 стр. спрямо 1 млн. реда в масив от близо 11 GB
'При преглед на информацията в тях "Капитал" откри бази данни с по над 1 млн. реда, съдържащи ЕГН, имена, адреси и дори доходи.'
https://www.capital.bg/politika_i_ikonomika/bulgaria/2019/07/15/3938624_ot_nap_sa_iztekli_lichni_danni_na_milioni_bulgarski/

Не е секретно файлчето, това е една книга издадена 1969. намерих я само в такъв формат. Изобщо не се усетих че гугълци са такива гадове. Ето и линк ($2) в mega.nz

Относно обяснението - ще дам един пример от страница 405

Цитат

Проститутка ж — от проститутка.Според съобщение от трета ръка: бащата билработник във Франция, дето имал приятелка,която другарите му наричали „проститутка“; от нея запазил добри спомени икогато се върнал, оженил се и станал баща,кръстил така дъщеря си. Единичен случай,Пернишко.

Титла: Re: От PDF в "машинно четим" формат
Публикувано от: go_fire в May 27, 2021, 08:38

Помислих си, че за речник става дума.

Лошата новина е, че някакъв OCR (например Tesseract или Cuneyform) може и да помогне маленко, но като цяло ще си е ръчна работа. Трябва си преписване. А след като самия ти няма да правиш речник, то си е излишно.

Идеята на Ремо за базата на НАП никак не е лишена от смисъл. На твое място точно това щях да сторя.

Имай предвид, че българина прогресивно обеднява откъм лични имена. Остават основни и взимаме влияния от вън — Виктор, Ванеса… Засега държим фронта при фамилните имена, макар точно те да бяха ударени в тоталитаризма, но след него много народ си ги върна.

Сиреч този речник до голяма степен е остарял и неактуален. Списъка на НАП е по-вярното нещо.

п.п. Учил съм френски като ученик, но вярно имаше нещо като проститют или нещо такова за лека жена. Сега се замислям, че тази дума явно е френска и не значи нищо на български, извън старата лакардия, че е жена, която е проста, но за сметка на това много се тутка.

Титла: Re: От PDF в "машинно четим" формат
Публикувано от: danaildr в May 27, 2021, 08:55

Не искам да събирам просто имена, по-скоро искам да си направя нещо като речник на имената. Кое име от къде произхожда и т.н.

Титла: Re: От PDF в "машинно четим" формат
Публикувано от: 4096bits в May 27, 2021, 10:37

Ако се направи на текст, може да се извлече и автоматично. Ръчната работа си е хамалогия, за такова нещо.

Титла: Re: От PDF в "машинно четим" формат
Публикувано от: jet в May 27, 2021, 15:59

Пробвах:
https://www.onlineocr.net/
Виж как изглежда в текст:

Код:

При същите условия се схваща като умалително и окончанието -ча,
нещо повече — то съдържа по-силна умалителност от -ка (Дана — Данка —
Данча, Дена — Денка — Денча, Йона — Йонка — Йонча, Лена — Ленка —
Ленча, Мира — Мирка — Мирча).
От имената на -ия формите с -ийка са винаги умалителни (Марийка,
Севастийка, Сийка, Софийка, Софранийка, Спасийка), но тяхната умали
телност намалява, когато стоят в опозиция с мъжко име на -ия (Драгийка,
Илийка), а от много женски имена на -ия изобщо не се срещат умалителни
форми.
От имената на -ая, -ея, -оя се образуват умалителни на -айка, -ейка,
-ойка (Доротейка, Драгайка, Зойка, Малейка), като и тук опозицията с
мъжко име намалява или напълно изключва умалителността (Благойка,
Исайка, Койка, Радивойка).
М н о ж е с т в е н о ч и с л о . Както при мъжките имена, форми за
множествено число се употребяват малко. От имената на -а или -я множе
ственото число окончава на -и или -ини (Марии, Пени, Радини, Цветани),
а от имената на -е или -и окончанието върви по типа на средния род (Лен-
чета, Лилита, Мичета).
ВИДОИЗМЕНЯНЕ НА ИМЕНАТА
Личните имена се изменят по форма и звуков състав много повече, от-
колкото другите думи в езика. Причините за това са различни — неправи
лен изговор на самите току-що проговорили деца, израз на гальовност,
небрежен изговор, уподобяване по други имена, за разлика от други, близки
или еднакви по форма имена, добавяне на нови окончания и т. н.
При такива промени не се държи сметка за корена или значението на
основното име, нито се прави разлика между чуждите по произход и бъл
гарските, славянските, които в много случаи напълно се десемантизират.
Колкото и различни да са промените на имената, все пак могат да се
посочат някои правила и закономерности.
1 ) И з п у щ а н е н а н а ч а л н и с р и ч к и . Когато началните
една, две, дори три срички са без ударение, те могат да отпаднат и съкрате
ното име започва с ударената сричка, към която обикновено се прибавя
ново окончание: Невена — Вена, Драгана, Гергана — Гана, Костадин,
Господин — Диньо, Дино, Неделчо — Делчо, Параскева — Кева, Ра-
душ — Душко, Тодора — Дора и т. н.
2) И з п у щ а н е на к р а й н и с р и ч к и . От основното име
се взема само първата сричка, независимо дали е под ударение, или без-
ударна. Към нея може да се запази една или две съгласни от изпуснатата
част на името и тогава идва новото окончание: Веселина — Веса, Гълъбина —
Гъла, Лазар — Лазо, Лако, Лальо, Лашо, Мария — Мара, Мата, Маца,
Надежда — Надя, Неделчо, Недялко — Недьо, Недко, Берислав, Бери-
мир — Беро, Алдомир — Алдьо и т. н.
3) Д в о й н о в ъ н ш н о и з п у щ а н е . От някои по-дълги имена
се взема само една или две вътрешни срички, а началните и крайните от
падат: Анастасия — Наета, Атанас, Анастас — Тако, Танчо,* Ташо.
4) И з п у щ а н е н а в ъ т р е ш н и с р и ч к и и л и з в у к о в е .
Изоставят се част от вътрешните срички или звукове на основното име:
Петкана, Петрана — Пена, Пенка, Величко — Вичо, Захари — Заре, Цве-
22

Код:

Просвиров ф — or диал. *просвира ’об
редно хлебче, просфора’.
Просенйков ф — от просенйк ’царевичен
хляб’. Пловдив.
Просенйчков ф — от диал. *просенйчко
’който яде просенйк’; вж. Просеников.
Лясковец, 1893, Русе.
Просешки ф — от просяк (били много
бедни). Бела Слатина.
Просййски ф — от просия (дядото бил
заможен, имал доста овце, но обичал да
проси). Берковица.
Просков ф. Кюстендил.
Просото пр — (може би „газел из просото“).
Кюстендил, 1857.
Простаков ф — от прякор Простака. Раз
град.
Проститутка ж — от проститутка.
Според съобщение от трета ръка: бащата бил
работник във Франция, дето имал приятелка,
която другарите му наричали „прости
тутка“; от нея запазил добри спомени и
когато се върнал, оженил се и станал баща,
кръстил така дъщеря си. Единичен случай,
Пернишко.
Простов ф — навярно руско име. Бур
гас, 1950.
Просяк пр — от просяк; срв. Просешки,
Просийски. Ярловци (Пиротско), 1845.
Прота ж — отгр T
cp
a>
xY
j ’първа’. Тетевен.
Протагеров ф — от Протогеров с преход
на предударното о в а. Русе, 1900.
Протасий м — гр. Ilpoxaotog, лат. Рго-
tasius — име на календарски светия. Вар
на, р. 1896. Сопот, 1935. Протасиев ф.
Протич ф — от гр. лрФтос 'пръв, първе
нец’. Търново, 1822, Велес, 1873, Кюстен
дил, 1893, Кратово, 1942.
Проткин и Проткински ф — фонетична
форма на Продкин, Продкински.
Протогеров и Протогерски ф — от остар.
протогер ’селски глашатай* (гр. пршгбуерод).
Охрид, 1905, Пещера, Кюстендил.
Протопопов ф — от протопоп ’глав ен
свещеник’. Хасково, 1893, Казанлък, Кар-
ло во.
Протохрйстов и Протохрйстев ф — от
прото Христо (Христьо) = първият Христо
или Христьо Първенецът. Пловдив.
Профил м — от Профир с дисимилация
на второто р. Профилов ф. Варна.
Профир м — от Порфир с метатеза на
ор в ро. Стара Загора, 1900, Петелово,
Пчеларово (Кърджалийско). Профиров ф.
Стара Загора, 1б93, Петелово, Пчеларово,
Смолян, Станке Димитров, Пирот, Варна,
Банкя.
Профирка ж — женска форма от Профир.
Прохар м — от Прохор с преход на неу-
дареното о в а. Прохаров ф. Самоковско.
Прохасков ф — чешко име, от prochazka
'разходка*.
Прохор м — гр. Пр6%ород ’който е пред-
хор, ръководител на хор’ — име на кален
дарски светия. Прохоров ф.
Проценков ф — руско име (бащата русин)..
Разград, 1966.
Прочко м — видоизменено от Продан,
Прохор или друго подобно име. Прочков-
ф. Варна.
Прошко м — умалит. ог Прошо. Прош-
ков ф.
Прошо м — видоизменено от Продан иди
от Прохор; срв. Пошо. Прошев ф.
Проя ж — женска форма срещу Пройо.
Лозенградско, 1920.
Прудхин и Пруткин ф.
Пруктович ф.
Прусаров ф — може би вм. *Просаров;
срв. Просаджиев. Горна Оряховица.
Прусев ф — може би грешка вм. Крусев.
Горна Оряховица, 1882.
Прусййски ф — нарочно видоизменено от
Просийски. Берковица.
Прухтович ф. Пловдив, Свищов.
Пръвка ж — умалит. от Първа. Берко
вица, Врачеш (Ботевградско). Пръвкин и
Пръвкински ф. Лехчево (Михайловград
ско).
Пръвул м — вм. Първул. Тетевен, 1648.
Пръвчо м — умалит. от Първи. Стара
Загора, 1884, Пирне (Айтоско), Карнобат,.
Пръвчев ф. Карнобат.
Пръдлаков ф — от прякор П ръдлак. Каб
лешково (Поморийско).
Пръдлев ф — от прякор П ръдльо. Гру-
довско. Пръдльовци род в Етрополе.
Пръдлеков ф — от Пръдлев с вмъкнато
е к . Котел.
Пръжката пр — от пръж ка ’сръдлив.
човек’. Луковит.
Пръков ф. Велинград, Разложко.
Пръмов ф — може би видоизменено от
Примов (?) Войнягово (Карловско), Ка
занлък.
Пръндачки и Пръндашки ф — може би
от диал. пръндавица ’гъба прахутка*.
Самоковско.
Прънчов ф — видоизменено от Брънчов
или от Пръвчев Згориград (Врачанско).
Пръстенчевф — отпръстенче. Етрополе,
Варна.
Прътев ф — от прът (висок и тънък като-
прът). Белица (Разложко), Благоевград.
Пръхчо м — от Пръвчо (Пръфчо) с пре
ход на ф в х. Карнобат. Пр^ьхчев ф. Кар
нобат, Айтос.
Пръцрагов ф. Рельово (Самоковско), Са
моков, Карлово.
Пръче пр — от пръч (имал остра бра
дичка, смърдял като пръч или нещо подоб
но). Кюстендил, 1879. Пръчев ф. Калофер.
Пръшев ф — вм. Пършев. Стара Загора.
Пряков ф — от прякор П рекия или
нещо подобно. Русе.
409’

Титла: Re: От PDF в "машинно четим" формат
Публикувано от: Naka в May 28, 2021, 15:11

Тове едно howto, което съм си го писал за себе си, как се екстрактва текст от pdf.
Не писах по-рано щото сега го намерих. ::)

pdftotext -nopgbrk -enc UTF-8 PrivateView2012.pdf false.txt pdftotext -nopgbrk -enc UTF-8 *pdf - > KF.txt # когато е на един ред след [for f in *]; и преди [do] се слага точка и запетайка. Но след [do] НЕ се слага ; # "$f" трябва да е в кавички иначе не може да обработва имена на файлове с паузи по средата. shopt -s extglob; for f in *.{pdf,PDF}; do echo -ne "Open: $f\n"; pdftotext -nopgbrk -enc UTF-8 "$f" - >> KF.txt; done

Oбаче мен ме мъчи един 'екзистенциален' въпрос ???

има файлове, които си личат че са сканирани. (като този). Обаче като го отворя с някой pdf четец (Okular) ми дава да копирам чист текст в клиборда. Как става това? Дали такива файлове имат вътрешно наред със графиката и вграден текст? или е някакъв динамичен OCR от четеца? Не ми се вярва да е така (динамичен OCR).

Титла: Re: От PDF в "машинно четим" формат
Публикувано от: 10101 в May 28, 2021, 23:39

Направих подобно упражнение но с google documents.
Качих файла в драйва, след което му казах да го отвори като документ..след около 30 сек вади текст но непозволява да се запише в docs поради някакви ограничения в размера.
Може да се копира текста страница по страница.. но пак е ръчна работа.
Наистина, както бе споменатo изглежда сканиран, то няма как да друго май.

П.С. вадил съм от чист pdf текста по горната формула.

Титла: Re: От PDF в "машинно четим" формат
Публикувано от: Naka в May 29, 2021, 10:43

Да изглежда сканиран, но pdftotext вади целият текст, от всички страници. Пробвах го и работи. Най-вероятно в сканирания документ има вграден и пълния текст, който е OCR-нат още при създаването на документа. (текста наистина изглежда като OCR-нат и се нуждае от ръчна доооправка) Много такива пдф-и срещам напоследък. Може да е работа на Гого, за да може все пак да се търси и между сканираните пдф-и.

А pdftotext при мен (Ценстос) идва от пакета poppler-utils и то май по дифоулт от анакондата.

OCR за този документ не е необходим! Освен ако някой не иска да си поиграе и да го направи по-добре. Например в екстрактнатия техт липсват гръчките думи. Някои липсват други са тотално сбъркани.

Титла: Re: От PDF в "машинно четим" формат
Публикувано от: 4096bits в May 30, 2021, 13:09

Хм!
Ако го имам форматиран така, както е, може би ще може да се спретне нещо, което да изплюе накрая csv или tsv ( tab separated values ) файл.

Инсталирах pdftotext ( който се оказа поредната Python-ска щуротия ) и ще видя, какво ще изкара. Дано го изплюе във вида, в който е и в документа.

Пробвах да чета документа и да измъкна текста с PyPDF2 обаче ми изкарва някакви щуротии. Не зная, каква е кодировката и нямам идея, как да проверя.

Предложения от @jet онлайн метод не приема толкова големи файлове.

Титла: Re: От PDF в "машинно четим" формат
Публикувано от: Naka в May 30, 2021, 13:55

pdftotext изплюва чист txt файл. От това по-просто и по-съвместимо здраве му кажи. След това който иска да си го доработва, редактира и да си го прави в каквото си иска. Ако ще и в база до го вкарва.
Няма как текст в pdf да е стуктуриран подреден и т.н. все пак pdf-а не е таблица, нито структуриран документ за данни.

Титла: Re: От PDF в "машинно четим" формат
Публикувано от: 4096bits в May 30, 2021, 14:37

Не ме интересува друга структура от тази, да се спазва броя на интервалите, където има интервали в текста.
Например между двете колони на страницата.

Титла: Re: От PDF в "машинно четим" формат
Публикувано от: danaildr в Jun 01, 2021, 20:52

Конвертрането на самия файл не е проблем, аз го имам конвертиран в текстов формат, 4.5MB е във текс.
Тук е целия файл -> цък ($2)
А тук е само частта с имената, всичко е в две колони -> цък ($2)
Мисля че този сормат е по-удачен -> цък ($2)

Първоначално дадох PDF файла, защото той е първоизточника.

Идеята ми е дали може да се конвертира в някакъв csv

Титла: Re: От PDF в "машинно четим" формат
Публикувано от: jet в Jun 02, 2021, 03:26

Код:

първо изтрих първите 1533 реда
после изтрих последните 3489 реда

#MySQL разделям двете колони текст в две полета
create database test;
use test;
create table text (col1 char(45), col2 char(45));
load data local infile 'download.txt' into table text (@row) set col1 = substr(@row,1,45), col2= substr(@row,45,45);

select col1 from text into outfile '/tmp/outtext1.txt' LINES TERMINATED BY '\n' ;
select col2 from text into outfile '/tmp/outtext2.txt' LINES TERMINATED BY '\n' ;

#bash сглобявам двете колони в една
cat outtext1.txt outtext2.txt > outtext.txt

#малко форматиране и чистене
sed -i 's//g' outtext.txt

sed -z 's/    /@/g; s/   /@/g; s/\n//g; s/@/\n/g ' outtext.txt > new.txt
sed  's/^[ \t]*//' -i new.txt
sed -r '/^\s*$/d' -i new.txt

може и някак да се замени

" м — " с "|м|"
" ж — " с "|ж|"
" ф — " с "|ф|"

и ще стане:

Азалйев|ф|разновидност на Азълов.Ламбух (Ивайловградско).
Алонзо|м|исп. Alonso. Алонзов ф.Пловдив.
Анатолия|ж|женска форма от Ана толи. Рядко.

за да стане файла с 3 полета с разделител |, ама този символ първо трябва да се зачисти от файла, че го има из текста

Има много дефекти, ама някой по-майстор на регулярните изрази може да го направи по-добре

Linux за българи: Форуми

Програмиране => Общ форум => Темата е започната от: danaildr в May 26, 2021, 21:14