Отпечатай - Здравейте, имам следният проблем с прочитането на един текстов файл.

Титла: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 08, 2019, 16:10

Това е следният код който използвам искам да изкарам само домейните със разширението
cat xxxxxx.txt | grep -i http | awk -F "//" '{ print $2 }' | awk -F "/" '{ print $1 }'

ето и съдържанието на файла

физически лица (предимно
чуждестранни граждани) съдържат твърдения за
инвестирани чрез част от долупосочените интернет платформи:
1.
https://www.brokerz.com
2.
www.olssoncapital.com
3.
https://www.pbncapital.com/
4.
www.alphabetfx.com
5.
www.afh.bg
6.
https://aba.marketing
7.
www.nextcoinmarket.com
8.
www.arotrade.com
9.
www.legalcfd.com
10.
https://en.utrader.com/
11.
https://www.fxnobels.io/
12.
www.ptbanc.com
13.
www.finmaxbo.com
14.
www.finmaxcfd.com
15.
www.profit-trade.com
16.
https://www.crypto.com/en/
17.
https://www.trader.online/
18.
www.olympusmarkets.com
19.
https://www.jpm-invest.com/ru/
20.
https://www.umarkets.com/
21.
https://swissinv24.com/
22.
www.marketscfd.net
23.
www.wellingtoninv.com
24.
www.cryptofg.com
25.
www.cfds100.com
26.
www.payboutique.com
27.
www.infinitrade.com
28.
https://www.finarix.com/
29.
https://sternmarkets.com
30.
https://investingcapital.com/
31.
www.finixcapital.com
32.
www.omegafx.io
33.
https://www.royalcbank.com
1

територията на Република България чрез клон, е наличен на следния интернет адрес:
http://142.132.247.59/public/index.php

2

Списъците с всички
на държава членка на ЕС, заучени нотификации за предоставяне на
инвестиционни услуги и дейности, на база свободата за предоставяне на услуги, са
налични
на
следния
интернет
адрес:

Р Е Ш И:
I.
Оповестява, чрез публикуване на интернет страницата на

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.

https://www.brokerz.com
www.olssoncapital.com
https://www.pbncapital.com/
www.alphabetfx.com
www.afh.bg
https://aba.marketing
www.nextcoinmarket.com
www.arotrade.com
www.legalcfd.com
https://en.utrader.com/
https://www.fxnobels.io/
www.ptbanc.com
www.finmaxbo.com
www.finmaxcfd.com
www.profit-trade.com
https://www.crypto.com/en/
https://www.trader.online/
www.olympusmarkets.com
https://www.jpm-invest.com/ru/
https://www.umarkets.com/
https://swissinv24.com/
www.marketscfd.net
www.wellingtoninv.com
www.cryptofg.com
www.cfds100.com
www.payboutique.com
www.infinitrade.com
https://www.finarix.com/
https://sternmarkets.com
https://investingcapital.com/
3

31.
32.
33.

www.finixcapital.com
www.omegafx.io
https://www.royalcbank.com

С публикуването на Решението на интернет страницата на
предлагат инвестиционни услуги чрез горепосочените интернет страници, се считат за
уведомени и са длъжни да преустановят предлагането на инвестиционни услуги чрез
тях.
На основание чл. 13, ал. 3 одневен срок от съобщаването му.
Обжалването не спира изпълнението на Решението.
ПРЕДСЕДАТЕЛ:

4

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: makeme в Oct 08, 2019, 16:31

Ми доорежи ги чрез добавяне отзад:

Код

GeSHi (Bash):
... | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}"

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 08, 2019, 17:12

ами има 33 домейна, нещо не се получава повтарят се

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: makeme в Oct 08, 2019, 17:22

Цитат на: supportpc в Oct 08, 2019, 17:12

ами има 33 домейна, нещо не се получава повтарят се

Код

GeSHi (Bash):
.. | sort -u

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 08, 2019, 17:25

не става

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: makeme в Oct 08, 2019, 17:32

Цитат на: supportpc в Oct 08, 2019, 17:25

не става

Смисъл?

броя ги без sort:

Код

GeSHi (Bash):
$ cat test0 | grep -i  http  | awk -F "//" '{ print  $2 }'  | awk -F "/" '{ print  $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | wc -l
66

броя ги със sort

Код

GeSHi (Bash):
$ cat test0 | grep -i  http  | awk -F "//" '{ print  $2 }'  | awk -F "/" '{ print  $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | sort -u | wc -l
33

Не разбирам какъв искаш да е резултата ?

Ето го при мен:

Код

GeSHi (Bash):
$ cat test0 | grep -i  http  | awk -F "//" '{ print  $2 }'  | awk -F "/" '{ print  $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | sort -u 
aba.marketing
afh.bg
alphabetfx.com
arotrade.com
brokerz.com
cfds100.com
crypto.com
cryptofg.com
en.utrader.com
finarix.com
finixcapital.com
finmaxbo.com
finmaxcfd.com
fxnobels.io
infinitrade.com
investingcapital.com
jpm-invest.com
legalcfd.com
marketscfd.net
nextcoinmarket.com
olssoncapital.com
olympusmarkets.com
omegafx.io
payboutique.com
pbncapital.com
profit-trade.com
ptbanc.com
royalcbank.com
sternmarkets.com
swissinv24.com
trader.online
umarkets.com
wellingtoninv.com

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 08, 2019, 17:41

cat rxxxxxx.txt | grep -i http | awk -F "//" '{ print $2 }' | awk -F "/" '{ print $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | sort -u
aba.marketing
brokerz.com
crypto.com
en.utrader.com
finarix.com
fsc.bg
fxnobels.io
investingcapital.com
jpm-invest.com
pbncapital.com
royalcbank.com
sternmarkets.com
swissinv24.com
trader.online
umarkets.com

аз виждам само това ти как ги изкарваш много странно

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: makeme в Oct 08, 2019, 17:45

Може би е от версията на sort. Ето моята:

Цитат

$ sort --version
sort (GNU coreutils) 8.25

Ако твоята е по-стара, пробвай с sort --unique или виж хелпа.

ПП: Махай пайповете един по един и виж къде става нещо, което не е. sed - трябва да маха www. , а grep -v , трябва да маха ИПта

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 08, 2019, 17:48

sort (GNU coreutils) 8.26
Copyright (C) 2016 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>.
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

Written by Mike Haertel and Paul Eggert.

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: makeme в Oct 08, 2019, 17:53

Цитат на: supportpc в Oct 08, 2019, 17:48

sort (GNU coreutils) 8.26
Copyright (C) 2016 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>.
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

Written by Mike Haertel and Paul Eggert.

Странна работа. Пробвай тогава с sort | uniq

Цитат

cat test0 | grep -i http | awk -F "//" '{ print $2 }' | awk -F "/" '{ print $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | sort | uniq

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: 4096bits в Oct 08, 2019, 20:28

Файла се задава като параметър на скрипта.

Код:

#!/usr/bin/env python3

from sys import argv

with open(argv[1], 'r', encoding='utf-8') as f:
    domains = []
    
    for line in f:
        if line.startswith('http'):
            domains.append(line.strip().split('//')[1].split('/')[0].lstrip('www.'))
    
for d in sorted(domains):
    print(d)

Резултат:

142.132.247.59
aba.marketing
aba.marketing
afh.bg
afh.bg
alphabetfx.com
alphabetfx.com
arotrade.com
arotrade.com
brokerz.com
brokerz.com
cfds100.com
cfds100.com
crypto.com
crypto.com
cryptofg.com
cryptofg.com
ellingtoninv.com
ellingtoninv.com
en.utrader.com
en.utrader.com
finarix.com
finarix.com
finixcapital.com
finixcapital.com
finmaxbo.com
finmaxbo.com
finmaxcfd.com
finmaxcfd.com
fxnobels.io
fxnobels.io
infinitrade.com
infinitrade.com
investingcapital.com
investingcapital.com
jpm-invest.com
jpm-invest.com
legalcfd.com
legalcfd.com
marketscfd.net
marketscfd.net
nextcoinmarket.com
nextcoinmarket.com
olssoncapital.com
olssoncapital.com
olympusmarkets.com
olympusmarkets.com
omegafx.io
omegafx.io
payboutique.com
payboutique.com
pbncapital.com
pbncapital.com
profit-trade.com
profit-trade.com
ptbanc.com
ptbanc.com
royalcbank.com
royalcbank.com
sternmarkets.com
sternmarkets.com
swissinv24.com
swissinv24.com
trader.online
trader.online
umarkets.com
umarkets.com

Без съвпадения, отрязан първия ред с IP-то:

Код:

#!/usr/bin/env python3

from sys import argv

with open(argv[1], 'r', encoding='utf-8') as f:
    domains = []
    
    for line in f:
        if line.startswith('http'):
            domains.append(line.strip().split('//')[1].split('/')[0].lstrip('www.'))
    
for d in sorted(list(set(domains)))[1:]:
    print(d)

Резултат:

aba.marketing
afh.bg
alphabetfx.com
arotrade.com
brokerz.com
cfds100.com
crypto.com
cryptofg.com
ellingtoninv.com
en.utrader.com
finarix.com
finixcapital.com
finmaxbo.com
finmaxcfd.com
fxnobels.io
infinitrade.com
investingcapital.com
jpm-invest.com
legalcfd.com
marketscfd.net
nextcoinmarket.com
olssoncapital.com
olympusmarkets.com
omegafx.io
payboutique.com
pbncapital.com
profit-trade.com
ptbanc.com
royalcbank.com
sternmarkets.com
swissinv24.com
trader.online
umarkets.com

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 08, 2019, 21:31

Цитат на: 4096bits в Oct 08, 2019, 20:28

Файла се задава като параметър на скрипта.

Код:
#!/usr/bin/env python3

from sys import argv

with open(argv[1], 'r', encoding='utf-8') as f:
    domains = []
    
    for line in f:
        if line.startswith('http'):
            domains.append(line.strip().split('//')[1].split('/')[0].lstrip('www.'))
    
for d in sorted(domains):
    print(d)
Резултат:

142.132.247.59
aba.marketing
aba.marketing
afh.bg
afh.bg
alphabetfx.com
alphabetfx.com
arotrade.com
arotrade.com
brokerz.com
brokerz.com
cfds100.com
cfds100.com
crypto.com
crypto.com
cryptofg.com
cryptofg.com
ellingtoninv.com
ellingtoninv.com
en.utrader.com
en.utrader.com
finarix.com
finarix.com
finixcapital.com
finixcapital.com
finmaxbo.com
finmaxbo.com
finmaxcfd.com
finmaxcfd.com
fxnobels.io
fxnobels.io
infinitrade.com
infinitrade.com
investingcapital.com
investingcapital.com
jpm-invest.com
jpm-invest.com
legalcfd.com
legalcfd.com
marketscfd.net
marketscfd.net
nextcoinmarket.com
nextcoinmarket.com
olssoncapital.com
olssoncapital.com
olympusmarkets.com
olympusmarkets.com
omegafx.io
omegafx.io
payboutique.com
payboutique.com
pbncapital.com
pbncapital.com
profit-trade.com
profit-trade.com
ptbanc.com
ptbanc.com
royalcbank.com
royalcbank.com
sternmarkets.com
sternmarkets.com
swissinv24.com
swissinv24.com
trader.online
trader.online
umarkets.com
umarkets.com
Без съвпадения, отрязан първия ред с IP-то:

Код:
#!/usr/bin/env python3

from sys import argv

with open(argv[1], 'r', encoding='utf-8') as f:
    domains = []
    
    for line in f:
        if line.startswith('http'):
            domains.append(line.strip().split('//')[1].split('/')[0].lstrip('www.'))
    
for d in sorted(list(set(domains)))[1:]:
    print(d)
Резултат:

aba.marketing
afh.bg
alphabetfx.com
arotrade.com
brokerz.com
cfds100.com
crypto.com
cryptofg.com
ellingtoninv.com
en.utrader.com
finarix.com
finixcapital.com
finmaxbo.com
finmaxcfd.com
fxnobels.io
infinitrade.com
investingcapital.com
jpm-invest.com
legalcfd.com
marketscfd.net
nextcoinmarket.com
olssoncapital.com
olympusmarkets.com
omegafx.io
payboutique.com
pbncapital.com
profit-trade.com
ptbanc.com
royalcbank.com
sternmarkets.com
swissinv24.com
trader.online
umarkets.com

Защо при мен изкарва само това
./domainconvert.py resheniepdf.txt
aba.marketing
brokerz.com
crypto.com
en.utrader.com
finarix.com
fsc.bg
fxnobels.io
investingcapital.com
jpm-invest.com
pbncapital.com
royalcbank.com
sternmarkets.com
swissinv24.com
trader.online
umarkets.com

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: makeme в Oct 08, 2019, 21:41

Знам че звучи тъпо предложение, но я погледни в тоя файл resheniepdf.txt дали дейтата е същата, като която ни постна?

пп: Да не си злоупотребил със sed преди това ;)

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: 4096bits в Oct 08, 2019, 21:45

Цитат на: makeme в Oct 08, 2019, 21:41

Знам че звучи тъпо предложение, но я погледни в тоя файл resheniepdf.txt дали дейтата е същата, като която ни постна

+1

Горе си дал файла. Копирал съм целият текст в отделен файл, за да мога да тествам. Не зная, защо при теб дава различен резултат. Може да не е същия файл.

Каквато и да е версия 3.х на Python би трябвало да върши едно и също при този прост скрипт.

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 08, 2019, 21:53

Колега грешката е моя извинявам се аз го чета от другият файл но си мислех че ще работи с подобен файл.

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: makeme в Oct 08, 2019, 21:58

Цитат на: supportpc в Oct 08, 2019, 21:53

Колега грешката е моя извинявам се аз го чета от другият файл но си мислех че ще работи с подобен файл.

Ще работи с всичко подобно на това , което си дал. Проблемът при домейните е , че те са имена. Сиреч текст, който за да го манипулираш, трябва да знаеш първоначалния текст. Може да са http, може и да не са. Може да са със subdomain "www." , може и да са просто с обикновен subdomain "primer.prime.com" . Отделно като добавиш че и топ левел домейни са изградени като субдомейни "co.uk" , "com.br" и тнт, става невъзможно да изкараш предвидимо нещо.

пп: За нещо по сложно ти трябва база данни за сравнение, което не вярвам да ти е целта.

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 08, 2019, 21:59

има ли вариант да с енаправи независимо от файла само да изкарва домейните тоест файла ще бъде конвертиран от pdf на Текстов файл

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 08, 2019, 22:01

Това е файла
https://www.fsc.bg/d.php?id=26812

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: makeme в Oct 08, 2019, 22:07

Цитат на: supportpc в Oct 08, 2019, 21:59

има ли вариант да с енаправи независимо от файла само да изкарва домейните тоест файла ще бъде конвертиран от pdf на Текстов файл

Виж сега, ние работим с текст така или иначе. Не вярвам това да ти е проблема. От къде си го взел или формата не е от значение. Ти накрая си обработваш тхт-то. Отварям една скоба разбира се- (енкодинга при извличането не трябва да го е напълнил с джибриш това тхт). Ако това се е случило - проблемът ти е в извличането на текста, а не в рязането му.

И пак да кажа - рязането ще е такова, каквото искаш, само ако текста е подобен на това , което си ни дал. Ако забелязваш там има и поддомейн (en.utrader.com {не е TLD}) и за изкарването само на TLD-а ще е много сложен скрипт с някаква база на какво може да завършва.

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 08, 2019, 22:09

ами добре ще го мисля тогава как да стане

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: makeme в Oct 08, 2019, 22:26

Цитат на: supportpc в Oct 08, 2019, 21:53

Колега грешката е моя извинявам се аз го чета от другият файл но си мислех че ще работи с подобен файл.

Ей ти го проблема:

Цитат

$ docx2txt 1.docx - | awk -F "//" '{ print $2 }' | awk -F "/" '{ print $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | sort -u

aba.marketing
brokerz.com
crypto.com
en.utrader.com
finarix.com
fsc.bg
fxnobels.io
investingcapital.com
jpm-invest.com
pbncapital.com
royalcbank.com
sternmarkets.com
swissinv24.com
trader.online
umarkets.com

Виж например тоя няма хттп

Код

GeSHi (Bash):
$ docx2txt 1.docx - | grep "olssoncapital.com"
www.olssoncapital.com
www.olssoncapital.com

Като го пейстнеш туk обаче има и ние копираме. Отделно първото което гледаш е слашовете след http.

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: makeme в Oct 08, 2019, 22:46

Ето ти и за твоя случай, но имай предвид че това не го препоръчвам, понеже ще извади всички споменати домейни в документа:

docx2txt 1.docx - | grep -E "[a-zA-Z0-9]+([-.]?[a-zA-Z0-9]+)*.[a-zA-Z]" | sed 's/https\?:\/\///' | awk -F "/" '{ print $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | grep -E "[a-zA-Z0-9]+([-.]?[a-zA-Z0-9]+)*.[a-zA-Z]+$" | grep -v " " | sort -u

Ако имаш документ и трябва да направиш списък и в документа примерно пише: Тези са ... но тези не са.... Ти ще направиш списък с всички. И пак казвам, това е според подадения пример. Не може да е универсално.

wc -l

връща 33

ПП: Променил съм го , така че го пробвай пак. Стайлинга тук не го харесва много :)

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: 4096bits в Oct 08, 2019, 23:19

Сега...
Проблемът с файла е точно, че не е текст. Docx формата е zip компресия с един куп xml файлове вътре.
За Python има eдин модул python-docx и мислех директно с docx файла да работя. Обаче енкодинга е тотално объркан, както в повечето документи на български, щото май почти никой не е чувал за utf-8.
Успявам да извадя уеб адресите от втората колона на първата таблица например, но някои просто излизат като празен низ. Документа с една дума може да се нарече каша.

Ето за пример, какво излиза при този опит.

Код:




www.afh.bg



www.legalcfd.com


www.ptbanc.com











www.cryptofg.com

www.payboutique.com





www.omegafx.io

Празните редове предполагам ги виждаш.

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: 4096bits в Oct 09, 2019, 01:49

Така...
XML е шитняна работа и парсването е кошмар. А и отдавна не бях пипал Python, та забавих и покрай някакви елементарни грешки.
Както казах, има модул направен за работа с docx документи, обаче в предния ми пост се видя, че читаво не излиза. Почти всичко липсва. Затова се хванах директно да работя с XML-а, с инструментите, които си идват с Питоня. Едва ли ще искаш да инсталираш модули.

Скрипта:

Код:

import sys
import xml.etree.ElementTree as et
import zipfile as zf

zip = zf.ZipFile(sys.argv[1])
doc = zip.open('word/document.xml')

tree = et.parse(doc)
root = tree.getroot()

ns = {'w': 'http://schemas.openxmlformats.org/wordprocessingml/2006/main'}

urls = []
for table in root.findall(".//w:tbl", ns):
    urls.extend([cell.text for cell in table.findall('.//w:t', ns)])

domains = []
for url in urls:
    if url.startswith('http'):
        domains.append(url.strip().split('//')[1].split('/')[0].lstrip('www.'))
    elif url.startswith('www'):
        domains.append(url.split('/')[0].lstrip('www.'))
    else:
        domains.append(url.split('/')[0])
    
for domain in sorted(list(set(domains))):
    print(domain)

Файлът отново се задава като параметър, та да можеш да си посочваш, каквото желаеш.
Изходът от горното върху docx файла, за когото даде линк:

aba.marketing
afh.bg
alphabetfx.com
arotrade.com
brokerz.com
cfds100.com
crypto.com
cryptofg.com
ellingtoninv.com
en.utrader.com
finarix.com
finixcapital.com
finmaxbo.com
finmaxcfd.com
fxnobels.io
infinitrade.com
investingcapital.com
jpm-invest.com
legalcfd.com
marketscfd.net
nextcoinmarket.com
olssoncapital.com
olympusmarkets.com
omegafx.io
payboutique.com
pbncapital.com
profit-trade.com
ptbanc.com
royalcbank.com
sternmarkets.com
swissinv24.com
trader.online
umarkets.com

Чакам си бирата ;D

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 09, 2019, 10:16

много благодаря трябва да почерпя

Цитат на: 4096bits в Oct 09, 2019, 01:49

Така...
XML е шитняна работа и парсването е кошмар. А и отдавна не бях пипал Python, та забавих и покрай някакви елементарни грешки.
Както казах, има модул направен за работа с docx документи, обаче в предния ми пост се видя, че читаво не излиза. Почти всичко липсва. Затова се хванах директно да работя с XML-а, с инструментите, които си идват с Питоня. Едва ли ще искаш да инсталираш модули.

Скрипта:

Код:
import sys
import xml.etree.ElementTree as et
import zipfile as zf

zip = zf.ZipFile(sys.argv[1])
doc = zip.open('word/document.xml')

tree = et.parse(doc)
root = tree.getroot()

ns = {'w': 'http://schemas.openxmlformats.org/wordprocessingml/2006/main'}

urls = []
for table in root.findall(".//w:tbl", ns):
    urls.extend([cell.text for cell in table.findall('.//w:t', ns)])

domains = []
for url in urls:
    if url.startswith('http'):
        domains.append(url.strip().split('//')[1].split('/')[0].lstrip('www.'))
    elif url.startswith('www'):
        domains.append(url.split('/')[0].lstrip('www.'))
    else:
        domains.append(url.split('/')[0])
    
for domain in sorted(list(set(domains))):
    print(domain)
Файлът отново се задава като параметър, та да можеш да си посочваш, каквото желаеш.
Изходът от горното върху docx файла, за когото даде линк:

aba.marketing
afh.bg
alphabetfx.com
arotrade.com
brokerz.com
cfds100.com
crypto.com
cryptofg.com
ellingtoninv.com
en.utrader.com
finarix.com
finixcapital.com
finmaxbo.com
finmaxcfd.com
fxnobels.io
infinitrade.com
investingcapital.com
jpm-invest.com
legalcfd.com
marketscfd.net
nextcoinmarket.com
olssoncapital.com
olympusmarkets.com
omegafx.io
payboutique.com
pbncapital.com
profit-trade.com
ptbanc.com
royalcbank.com
sternmarkets.com
swissinv24.com
trader.online
umarkets.com

Чакам си бирата ;D

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 09, 2019, 10:19

много благодаря трябва да почерпя

Цитат на: makeme в Oct 08, 2019, 22:46

Ето ти и за твоя случай, но имай предвид че това не го препоръчвам, понеже ще извади всички споменати домейни в документа:

docx2txt 1.docx - | grep -E "[a-zA-Z0-9]+([-.]?[a-zA-Z0-9]+)*.[a-zA-Z]" | sed 's/https\?:\/\///' | awk -F "/" '{ print $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | grep -E "[a-zA-Z0-9]+([-.]?[a-zA-Z0-9]+)*.[a-zA-Z]+$" | grep -v " " | sort -u

Ако имаш документ и трябва да направиш списък и в документа примерно пише: Тези са ... но тези не са.... Ти ще направиш списък с всички. И пак казвам, това е според подадения пример. Не може да е универсално.

wc -l

връща 33

ПП: Променил съм го , така че го пробвай пак. Стайлинга тук не го харесва много :)

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: 4096bits в Oct 09, 2019, 10:27

Забравих да добавя и шибанг реда най-горе, та ако ще го ползваш, може на първия ред да сложиш едно

#!/usr/bin/env python3

И може празен ред отдолу просто за по-лесна четимост.
Успешен ден!

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 09, 2019, 10:51

направих го стана прекрасно още веднъж ти благодаря

Цитат на: 4096bits в Oct 09, 2019, 10:27

Забравих да добавя и шибанг реда най-горе, та ако ще го ползваш, може на първия ред да сложиш едно

#!/usr/bin/env python3

И може празен ред отдолу просто за по-лесна четимост.
Успешен ден!

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: 4096bits в Oct 09, 2019, 13:09

http://www.supportpc.org/

Нещо общо с тези? :)

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 09, 2019, 13:22

Да това е мой домейн защо ?

Цитат на: 4096bits в Oct 09, 2019, 13:09

http://www.supportpc.org/

Нещо общо с тези? :)

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 09, 2019, 13:30

само да не ме бъркаш с тези supportpc.biz и supportpc.hit.bg

Цитат на: supportpc в Oct 09, 2019, 13:22

Да това е мой домейн защо ?
Цитат на: 4096bits в Oct 09, 2019, 13:09
http://www.supportpc.org/

Нещо общо с тези? :)

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: 4096bits в Oct 09, 2019, 14:24

Дори не съм ги видял. ;D

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: supportpc в Oct 09, 2019, 15:04

ясно

Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл.
Публикувано от: Yasen6275 в Oct 18, 2019, 12:55

Не може ли по-простичко:

Код

GeSHi (Bash):
|grep http | cut -d '/' -f3

Linux за българи: Форуми

BSD секция => Настройки на софтуер => Темата е започната от: supportpc в Oct 08, 2019, 16:10