Автор Тема: От PDF в "машинно четим" формат  (Прочетена 2086 пъти)

jet

  • Напреднали
  • *****
  • Публикации: 2260
  • Distribution: debian
  • Window Manager: kde
    • Профил
Re: От PDF в "машинно четим" формат
« Отговор #15 -: Jun 02, 2021, 03:26 »
Код:
първо изтрих първите 1533 реда
после изтрих последните 3489 реда

#MySQL разделям двете колони текст в две полета
create database test;
use test;
create table text (col1 char(45), col2 char(45));
load data local infile 'download.txt' into table text (@row) set col1 = substr(@row,1,45), col2= substr(@row,45,45);

select col1 from text into outfile '/tmp/outtext1.txt' LINES TERMINATED BY '\n' ;
select col2 from text into outfile '/tmp/outtext2.txt' LINES TERMINATED BY '\n' ;

#bash сглобявам двете колони в една
cat outtext1.txt outtext2.txt > outtext.txt

#малко форматиране и чистене
sed -i 's//g' outtext.txt

sed -z 's/    /@/g; s/   /@/g; s/\n//g; s/@/\n/g ' outtext.txt > new.txt
sed  's/^[ \t]*//' -i new.txt
sed -r '/^\s*$/d' -i new.txt

може и някак да се замени

" м — "   с   "|м|"
" ж — "   с   "|ж|"
" ф — "   с   "|ф|"

и ще стане:

Азалйев|ф|разновидност на Азълов.Ламбух (Ивайловградско).
Алонзо|м|исп. Alonso. Алонзов ф.Пловдив.
Анатолия|ж|женска форма от Ана­  толи. Рядко.

за да стане файла с 3 полета с разделител |, ама този символ първо трябва да се зачисти от файла, че го има из текста


Има много дефекти, ама някой по-майстор на регулярните изрази може да го направи по-добре
« Последна редакция: Jun 02, 2021, 15:04 от jet »
Активен

..⢀⣴⠾⠻⢶⣦⠀
  ⣾⠁⢠⠒⠀⣿⡁
  ⢿⡄⠘⠷⠚⠋
  ⠈⠳⣄⠀⠀⠀⠀  Debian, the universal operating system.