Титла: От PDF в "машинно четим" формат Публикувано от: danaildr в May 26, 2021, 21:14 Здравейте,
Заглавието е малко подвеждащо, защото не точно това трябва да се случи. Само по себе си конвертирането от един в друг формат не е кой знае каква работа, но просто не знам как да му измисля заглавие на моя проблем. А проблема не е толкова проблем колкото затруднение. Както са казали хората, ако един проблем се решава с пари, то той не е проблем а разход. Та сега по темата. В ей туй файлче ($2) има списък с личните и фамилни имена използвани в България (да малко е старо но ...) Та искам да извадя имената и съответно обясненията за тях, както и да ги вкарам в някакъв csv или подобен файл, от който лесно да се прелеят в база данни (MySQL, MariaDB, MongoDB или друга), за последващо използване. Документа е "само" 620 (реално до 40 страница няма нищо от това което ми трябва) страници, варианта с ръчно въвеждане съм го отавил за най-накрая ако не се намери друг начин. Титла: Re: От PDF в "машинно четим" формат Публикувано от: remotexx в May 27, 2021, 07:02 Файлчето е недостъпно (за хора без акаунт на GDrive) - сложи го на някой безплатен публичен адрес па макар и с парола (ако е толкоз секретно), а и адреса за сваляне по подразбиране няма да е публичен тъй че риска е минимален ..а и предполагам ресурса е публичен (или поне е бил навремето) ама що ПДФ? мисля че имаше нейде готова база данни и то с бая повече имена ..явно е заради 'обяснението' (ама какво ли ще е туй обяснение)
Sign in to continue to Google Drive :o ::) :'( П.П. Имаше един такъв дето даже и Гогата го ползва и не трябва да си прави човек регистрация само да дръпне едно файлче - mega.nz ли беше П.П.П. Че те май само от НАП-а изтекоха повече имена ..е сега вярно че имат много повтарящи се ама колко ли имена ще се съберат на 600 стр. спрямо 1 млн. реда в масив от близо 11 GB 'При преглед на информацията в тях "Капитал" откри бази данни с по над 1 млн. реда, съдържащи ЕГН, имена, адреси и дори доходи.' https://www.capital.bg/politika_i_ikonomika/bulgaria/2019/07/15/3938624_ot_nap_sa_iztekli_lichni_danni_na_milioni_bulgarski/ Титла: Re: От PDF в "машинно четим" формат Публикувано от: go_fire в May 27, 2021, 08:00 DDantgwyn ме светна за това Мега. Не, че съм го ползвал кой знае колко много, но е доста прилично направен. Има клиент, който се интегрира включително с КДЕ и Гном, работи включително на стари дистрибуции и който е силно препоръчителен, ако например искаш да качиш множество документи наведнъж. Но и по-принцип е по-бързия вариант.
Не харесвам особено Sync-a. Той е двустранен, но ако на едното място изтриеш нещо или го преместиш, то на другото място не се трие, а местенето е просто копиране. Така получаваш по няколко версии на едно и също, което за мен е значителен проблем. Титла: Re: От PDF в "машинно четим" формат Публикувано от: danaildr в May 27, 2021, 08:24 Файлчето е недостъпно (за хора без акаунт на GDrive) - сложи го на някой безплатен публичен адрес па макар и с парола (ако е толкоз секретно), а и адреса за сваляне по подразбиране няма да е публичен тъй че риска е минимален ..а и предполагам ресурса е публичен (или поне е бил навремето) ама що ПДФ? мисля че имаше нейде готова база данни и то с бая повече имена ..явно е заради 'обяснението' (ама какво ли ще е туй обяснение)Не е секретно файлчето, това е една книга издадена 1969. намерих я само в такъв формат. Изобщо не се усетих че гугълци са такива гадове. Ето и линк ($2) в mega.nz Относно обяснението - ще дам един пример от страница 405 Цитат Проститутка ж — от проститутка.Според съобщение от трета ръка: бащата билработник във Франция, дето имал приятелка,която другарите му наричали „проститутка“; от нея запазил добри спомени икогато се върнал, оженил се и станал баща,кръстил така дъщеря си. Единичен случай,Пернишко. Титла: Re: От PDF в "машинно четим" формат Публикувано от: go_fire в May 27, 2021, 08:38 Помислих си, че за речник става дума.
Лошата новина е, че някакъв OCR (например Tesseract или Cuneyform) може и да помогне маленко, но като цяло ще си е ръчна работа. Трябва си преписване. А след като самия ти няма да правиш речник, то си е излишно. Идеята на Ремо за базата на НАП никак не е лишена от смисъл. На твое място точно това щях да сторя. Имай предвид, че българина прогресивно обеднява откъм лични имена. Остават основни и взимаме влияния от вън — Виктор, Ванеса… Засега държим фронта при фамилните имена, макар точно те да бяха ударени в тоталитаризма, но след него много народ си ги върна. Сиреч този речник до голяма степен е остарял и неактуален. Списъка на НАП е по-вярното нещо. п.п. Учил съм френски като ученик, но вярно имаше нещо като проститют или нещо такова за лека жена. Сега се замислям, че тази дума явно е френска и не значи нищо на български, извън старата лакардия, че е жена, която е проста, но за сметка на това много се тутка. Титла: Re: От PDF в "машинно четим" формат Публикувано от: danaildr в May 27, 2021, 08:55 Не искам да събирам просто имена, по-скоро искам да си направя нещо като речник на имената. Кое име от къде произхожда и т.н.
Титла: Re: От PDF в "машинно четим" формат Публикувано от: 4096bits в May 27, 2021, 10:37 Ако се направи на текст, може да се извлече и автоматично. Ръчната работа си е хамалогия, за такова нещо.
Титла: Re: От PDF в "машинно четим" формат Публикувано от: jet в May 27, 2021, 15:59 Пробвах:
https://www.onlineocr.net/ Виж как изглежда в текст: Код: При същите условия се схваща като умалително и окончанието -ча, Код: Просвиров ф — or диал. *просвира ’об Титла: Re: От PDF в "машинно четим" формат Публикувано от: Naka в May 28, 2021, 15:11 Тове едно howto, което съм си го писал за себе си, как се екстрактва текст от pdf.
Не писах по-рано щото сега го намерих. ::) pdftotext -nopgbrk -enc UTF-8 PrivateView2012.pdf false.txt pdftotext -nopgbrk -enc UTF-8 *pdf - > KF.txt # когато е на един ред след [for f in *]; и преди [do] се слага точка и запетайка. Но след [do] НЕ се слага ; # "$f" трябва да е в кавички иначе не може да обработва имена на файлове с паузи по средата. shopt -s extglob; for f in *.{pdf,PDF}; do echo -ne "Open: $f\n"; pdftotext -nopgbrk -enc UTF-8 "$f" - >> KF.txt; done Oбаче мен ме мъчи един 'екзистенциален' въпрос ??? има файлове, които си личат че са сканирани. (като този). Обаче като го отворя с някой pdf четец (Okular) ми дава да копирам чист текст в клиборда. Как става това? Дали такива файлове имат вътрешно наред със графиката и вграден текст? или е някакъв динамичен OCR от четеца? Не ми се вярва да е така (динамичен OCR). Титла: Re: От PDF в "машинно четим" формат Публикувано от: 10101 в May 28, 2021, 23:39 Направих подобно упражнение но с google documents.
Качих файла в драйва, след което му казах да го отвори като документ..след около 30 сек вади текст но непозволява да се запише в docs поради някакви ограничения в размера. Може да се копира текста страница по страница.. но пак е ръчна работа. Наистина, както бе споменатo изглежда сканиран, то няма как да друго май. П.С. вадил съм от чист pdf текста по горната формула. Титла: Re: От PDF в "машинно четим" формат Публикувано от: Naka в May 29, 2021, 10:43 Да изглежда сканиран, но pdftotext вади целият текст, от всички страници. Пробвах го и работи. Най-вероятно в сканирания документ има вграден и пълния текст, който е OCR-нат още при създаването на документа. (текста наистина изглежда като OCR-нат и се нуждае от ръчна доооправка) Много такива пдф-и срещам напоследък. Може да е работа на Гого, за да може все пак да се търси и между сканираните пдф-и.
А pdftotext при мен (Ценстос) идва от пакета poppler-utils и то май по дифоулт от анакондата. OCR за този документ не е необходим! Освен ако някой не иска да си поиграе и да го направи по-добре. Например в екстрактнатия техт липсват гръчките думи. Някои липсват други са тотално сбъркани. Титла: Re: От PDF в "машинно четим" формат Публикувано от: 4096bits в May 30, 2021, 13:09 Хм!
Ако го имам форматиран така, както е, може би ще може да се спретне нещо, което да изплюе накрая csv или tsv ( tab separated values ) файл. Инсталирах pdftotext ( който се оказа поредната Python-ска щуротия ) и ще видя, какво ще изкара. Дано го изплюе във вида, в който е и в документа. Пробвах да чета документа и да измъкна текста с PyPDF2 обаче ми изкарва някакви щуротии. Не зная, каква е кодировката и нямам идея, как да проверя. Предложения от @jet онлайн метод не приема толкова големи файлове. Титла: Re: От PDF в "машинно четим" формат Публикувано от: Naka в May 30, 2021, 13:55 pdftotext изплюва чист txt файл. От това по-просто и по-съвместимо здраве му кажи. След това който иска да си го доработва, редактира и да си го прави в каквото си иска. Ако ще и в база до го вкарва.
Няма как текст в pdf да е стуктуриран подреден и т.н. все пак pdf-а не е таблица, нито структуриран документ за данни. Титла: Re: От PDF в "машинно четим" формат Публикувано от: 4096bits в May 30, 2021, 14:37 Не ме интересува друга структура от тази, да се спазва броя на интервалите, където има интервали в текста.
Например между двете колони на страницата. Титла: Re: От PDF в "машинно четим" формат Публикувано от: danaildr в Jun 01, 2021, 20:52 Конвертрането на самия файл не е проблем, аз го имам конвертиран в текстов формат, 4.5MB е във текс.
Тук е целия файл -> цък ($2) А тук е само частта с имената, всичко е в две колони -> цък ($2) Мисля че този сормат е по-удачен -> цък ($2) Първоначално дадох PDF файла, защото той е първоизточника. Идеята ми е дали може да се конвертира в някакъв csv Титла: Re: От PDF в "машинно четим" формат Публикувано от: jet в Jun 02, 2021, 03:26 Код: първо изтрих първите 1533 реда може и някак да се замени " м — " с "|м|" " ж — " с "|ж|" " ф — " с "|ф|" и ще стане: Азалйев|ф|разновидност на Азълов.Ламбух (Ивайловградско). Алонзо|м|исп. Alonso. Алонзов ф.Пловдив. Анатолия|ж|женска форма от Ана толи. Рядко. за да стане файла с 3 полета с разделител |, ама този символ първо трябва да се зачисти от файла, че го има из текста Има много дефекти, ама някой по-майстор на регулярните изрази може да го направи по-добре |