Автор Тема: Здравейте, имам следният проблем с прочитането на един текстов файл.  (Прочетена 20318 пъти)

supportpc

  • Гост
Това е следният код който използвам искам да изкарам само домейните със разширението
cat xxxxxx.txt | grep -i  http  | awk -F "//" '{ print  $2 }'  | awk -F "/" '{ print  $1 }'

ето и съдържанието на файла

 физически лица (предимно
чуждестранни граждани) съдържат твърдения за
инвестирани чрез част от долупосочените интернет платформи:
1.
https://www.brokerz.com
2.
http://www.olssoncapital.com
3.
https://www.pbncapital.com/
4.
http://www.alphabetfx.com
5.
http://www.afh.bg
6.
https://aba.marketing
7.
http://www.nextcoinmarket.com
8.
http://www.arotrade.com
9.
http://www.legalcfd.com
10.
https://en.utrader.com/
11.
https://www.fxnobels.io/
12.
http://www.ptbanc.com
13.
http://www.finmaxbo.com
14.
http://www.finmaxcfd.com
15.
http://www.profit-trade.com
16.
https://www.crypto.com/en/
17.
https://www.trader.online/
18.
http://www.olympusmarkets.com
19.
https://www.jpm-invest.com/ru/
20.
https://www.umarkets.com/
21.
https://swissinv24.com/
22.
http://www.marketscfd.net
23.
http://www.wellingtoninv.com
24.
http://www.cryptofg.com
25.
http://www.cfds100.com
26.
http://www.payboutique.com
27.
http://www.infinitrade.com
28.
https://www.finarix.com/
29.
https://sternmarkets.com
30.
https://investingcapital.com/
31.
http://www.finixcapital.com
32.
http://www.omegafx.io
33.
https://www.royalcbank.com
1


територията на Република България чрез клон, е наличен на следния интернет адрес:
http://142.132.247.59/public/index.php

2

Списъците с всички
на държава членка на ЕС, заучени нотификации за предоставяне на
инвестиционни услуги и дейности, на база свободата за предоставяне на услуги, са
налични
на
следния
интернет
адрес:

Р Е Ш И:
I.
Оповестява, чрез публикуване на интернет страницата на

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.

https://www.brokerz.com
http://www.olssoncapital.com
https://www.pbncapital.com/
http://www.alphabetfx.com
http://www.afh.bg
https://aba.marketing
http://www.nextcoinmarket.com
http://www.arotrade.com
http://www.legalcfd.com
https://en.utrader.com/
https://www.fxnobels.io/
http://www.ptbanc.com
http://www.finmaxbo.com
http://www.finmaxcfd.com
http://www.profit-trade.com
https://www.crypto.com/en/
https://www.trader.online/
http://www.olympusmarkets.com
https://www.jpm-invest.com/ru/
https://www.umarkets.com/
https://swissinv24.com/
http://www.marketscfd.net
http://www.wellingtoninv.com
http://www.cryptofg.com
http://www.cfds100.com
http://www.payboutique.com
http://www.infinitrade.com
https://www.finarix.com/
https://sternmarkets.com
https://investingcapital.com/
3

31.
32.
33.

http://www.finixcapital.com
http://www.omegafx.io
https://www.royalcbank.com

С публикуването на Решението на интернет страницата на
предлагат инвестиционни услуги чрез горепосочените интернет страници, се считат за
уведомени и са длъжни да преустановят предлагането на инвестиционни услуги чрез
тях.
На основание чл. 13, ал. 3 одневен срок от съобщаването му.
Обжалването не спира изпълнението на Решението.
ПРЕДСЕДАТЕЛ:


4
Активен

makeme

  • Напреднали
  • *****
  • Публикации: 895
  • Distribution: Many
  • Window Manager: KDE
    • Профил
Ми доорежи ги чрез добавяне отзад:

Код
GeSHi (Bash):
  1. ... | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}"
Активен

Distributions:  UbuntuMate; Kubuntu; CentOS; Kali; Raspberry Pi OS ...

supportpc

  • Гост
ами има 33 домейна, нещо не се получава повтарят се
Активен

makeme

  • Напреднали
  • *****
  • Публикации: 895
  • Distribution: Many
  • Window Manager: KDE
    • Профил
ами има 33 домейна, нещо не се получава повтарят се

Код
GeSHi (Bash):
  1. .. | sort -u

?
Активен

Distributions:  UbuntuMate; Kubuntu; CentOS; Kali; Raspberry Pi OS ...

supportpc

  • Гост
Активен

makeme

  • Напреднали
  • *****
  • Публикации: 895
  • Distribution: Many
  • Window Manager: KDE
    • Профил
не става
Смисъл?

броя ги без sort:

Код
GeSHi (Bash):
  1. $ cat test0 | grep -i  http  | awk -F "//" '{ print  $2 }'  | awk -F "/" '{ print  $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | wc -l
  2. 66

броя ги със sort

Код
GeSHi (Bash):
  1. $ cat test0 | grep -i  http  | awk -F "//" '{ print  $2 }'  | awk -F "/" '{ print  $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | sort -u | wc -l
  2. 33

Не разбирам какъв искаш да е резултата ?

Ето го при мен:

Код
GeSHi (Bash):
  1. $ cat test0 | grep -i  http  | awk -F "//" '{ print  $2 }'  | awk -F "/" '{ print  $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | sort -u
  2. aba.marketing
  3. afh.bg
  4. alphabetfx.com
  5. arotrade.com
  6. brokerz.com
  7. cfds100.com
  8. crypto.com
  9. cryptofg.com
  10. en.utrader.com
  11. finarix.com
  12. finixcapital.com
  13. finmaxbo.com
  14. finmaxcfd.com
  15. fxnobels.io
  16. infinitrade.com
  17. investingcapital.com
  18. jpm-invest.com
  19. legalcfd.com
  20. marketscfd.net
  21. nextcoinmarket.com
  22. olssoncapital.com
  23. olympusmarkets.com
  24. omegafx.io
  25. payboutique.com
  26. pbncapital.com
  27. profit-trade.com
  28. ptbanc.com
  29. royalcbank.com
  30. sternmarkets.com
  31. swissinv24.com
  32. trader.online
  33. umarkets.com
  34. wellingtoninv.com
  35.  


Активен

Distributions:  UbuntuMate; Kubuntu; CentOS; Kali; Raspberry Pi OS ...

supportpc

  • Гост
cat rxxxxxx.txt | grep -i  http  | awk -F "//" '{ print  $2 }'  | awk -F "/" '{ print  $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | sort -u
aba.marketing
brokerz.com
crypto.com
en.utrader.com
finarix.com
fsc.bg
fxnobels.io
investingcapital.com
jpm-invest.com
pbncapital.com
royalcbank.com
sternmarkets.com
swissinv24.com
trader.online
umarkets.com
 
аз виждам само това ти как ги изкарваш много странно
Активен

makeme

  • Напреднали
  • *****
  • Публикации: 895
  • Distribution: Many
  • Window Manager: KDE
    • Профил
Може би е от версията на sort. Ето моята:

Цитат
$ sort --version
sort (GNU coreutils) 8.25

Ако твоята е по-стара, пробвай с sort --unique или виж хелпа.

ПП: Махай пайповете един по един и виж къде става нещо, което не е. sed - трябва да маха www. , а grep -v , трябва да маха ИПта
« Последна редакция: Oct 08, 2019, 17:48 от makeme »
Активен

Distributions:  UbuntuMate; Kubuntu; CentOS; Kali; Raspberry Pi OS ...

supportpc

  • Гост
sort (GNU coreutils) 8.26
Copyright (C) 2016 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>.
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

Written by Mike Haertel and Paul Eggert.
Активен

makeme

  • Напреднали
  • *****
  • Публикации: 895
  • Distribution: Many
  • Window Manager: KDE
    • Профил
sort (GNU coreutils) 8.26
Copyright (C) 2016 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>.
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

Written by Mike Haertel and Paul Eggert.
Странна работа. Пробвай тогава с sort | uniq

Цитат
cat test0  | grep -i  http  | awk -F "//" '{ print  $2 }'  | awk -F "/" '{ print  $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}"  | sort | uniq
Активен

Distributions:  UbuntuMate; Kubuntu; CentOS; Kali; Raspberry Pi OS ...

4096bits

  • Напреднали
  • *****
  • Публикации: 6736
    • Профил
Файла се задава като параметър на скрипта.

Код:
#!/usr/bin/env python3

from sys import argv

with open(argv[1], 'r', encoding='utf-8') as f:
    domains = []
   
    for line in f:
        if line.startswith('http'):
            domains.append(line.strip().split('//')[1].split('/')[0].lstrip('www.'))
   
for d in sorted(domains):
    print(d)

Резултат:

142.132.247.59
aba.marketing
aba.marketing
afh.bg
afh.bg
alphabetfx.com
alphabetfx.com
arotrade.com
arotrade.com
brokerz.com
brokerz.com
cfds100.com
cfds100.com
crypto.com
crypto.com
cryptofg.com
cryptofg.com
ellingtoninv.com
ellingtoninv.com
en.utrader.com
en.utrader.com
finarix.com
finarix.com
finixcapital.com
finixcapital.com
finmaxbo.com
finmaxbo.com
finmaxcfd.com
finmaxcfd.com
fxnobels.io
fxnobels.io
infinitrade.com
infinitrade.com
investingcapital.com
investingcapital.com
jpm-invest.com
jpm-invest.com
legalcfd.com
legalcfd.com
marketscfd.net
marketscfd.net
nextcoinmarket.com
nextcoinmarket.com
olssoncapital.com
olssoncapital.com
olympusmarkets.com
olympusmarkets.com
omegafx.io
omegafx.io
payboutique.com
payboutique.com
pbncapital.com
pbncapital.com
profit-trade.com
profit-trade.com
ptbanc.com
ptbanc.com
royalcbank.com
royalcbank.com
sternmarkets.com
sternmarkets.com
swissinv24.com
swissinv24.com
trader.online
trader.online
umarkets.com
umarkets.com

Без съвпадения, отрязан първия ред с IP-то:

Код:
#!/usr/bin/env python3

from sys import argv

with open(argv[1], 'r', encoding='utf-8') as f:
    domains = []
   
    for line in f:
        if line.startswith('http'):
            domains.append(line.strip().split('//')[1].split('/')[0].lstrip('www.'))
   
for d in sorted(list(set(domains)))[1:]:
    print(d)

Резултат:

aba.marketing
afh.bg
alphabetfx.com
arotrade.com
brokerz.com
cfds100.com
crypto.com
cryptofg.com
ellingtoninv.com
en.utrader.com
finarix.com
finixcapital.com
finmaxbo.com
finmaxcfd.com
fxnobels.io
infinitrade.com
investingcapital.com
jpm-invest.com
legalcfd.com
marketscfd.net
nextcoinmarket.com
olssoncapital.com
olympusmarkets.com
omegafx.io
payboutique.com
pbncapital.com
profit-trade.com
ptbanc.com
royalcbank.com
sternmarkets.com
swissinv24.com
trader.online
umarkets.com
« Последна редакция: Oct 08, 2019, 21:06 от 4096bits »
Активен

As they say in Mexico, "Dasvidaniya!" Down there, that's two vidaniyas.

supportpc

  • Гост
Файла се задава като параметър на скрипта.

Код:
#!/usr/bin/env python3

from sys import argv

with open(argv[1], 'r', encoding='utf-8') as f:
    domains = []
   
    for line in f:
        if line.startswith('http'):
            domains.append(line.strip().split('//')[1].split('/')[0].lstrip('www.'))
   
for d in sorted(domains):
    print(d)

Резултат:

142.132.247.59
aba.marketing
aba.marketing
afh.bg
afh.bg
alphabetfx.com
alphabetfx.com
arotrade.com
arotrade.com
brokerz.com
brokerz.com
cfds100.com
cfds100.com
crypto.com
crypto.com
cryptofg.com
cryptofg.com
ellingtoninv.com
ellingtoninv.com
en.utrader.com
en.utrader.com
finarix.com
finarix.com
finixcapital.com
finixcapital.com
finmaxbo.com
finmaxbo.com
finmaxcfd.com
finmaxcfd.com
fxnobels.io
fxnobels.io
infinitrade.com
infinitrade.com
investingcapital.com
investingcapital.com
jpm-invest.com
jpm-invest.com
legalcfd.com
legalcfd.com
marketscfd.net
marketscfd.net
nextcoinmarket.com
nextcoinmarket.com
olssoncapital.com
olssoncapital.com
olympusmarkets.com
olympusmarkets.com
omegafx.io
omegafx.io
payboutique.com
payboutique.com
pbncapital.com
pbncapital.com
profit-trade.com
profit-trade.com
ptbanc.com
ptbanc.com
royalcbank.com
royalcbank.com
sternmarkets.com
sternmarkets.com
swissinv24.com
swissinv24.com
trader.online
trader.online
umarkets.com
umarkets.com

Без съвпадения, отрязан първия ред с IP-то:

Код:
#!/usr/bin/env python3

from sys import argv

with open(argv[1], 'r', encoding='utf-8') as f:
    domains = []
   
    for line in f:
        if line.startswith('http'):
            domains.append(line.strip().split('//')[1].split('/')[0].lstrip('www.'))
   
for d in sorted(list(set(domains)))[1:]:
    print(d)

Резултат:

aba.marketing
afh.bg
alphabetfx.com
arotrade.com
brokerz.com
cfds100.com
crypto.com
cryptofg.com
ellingtoninv.com
en.utrader.com
finarix.com
finixcapital.com
finmaxbo.com
finmaxcfd.com
fxnobels.io
infinitrade.com
investingcapital.com
jpm-invest.com
legalcfd.com
marketscfd.net
nextcoinmarket.com
olssoncapital.com
olympusmarkets.com
omegafx.io
payboutique.com
pbncapital.com
profit-trade.com
ptbanc.com
royalcbank.com
sternmarkets.com
swissinv24.com
trader.online
umarkets.com

Защо при мен изкарва само това
 ./domainconvert.py resheniepdf.txt
aba.marketing
brokerz.com
crypto.com
en.utrader.com
finarix.com
fsc.bg
fxnobels.io
investingcapital.com
jpm-invest.com
pbncapital.com
royalcbank.com
sternmarkets.com
swissinv24.com
trader.online
umarkets.com

Активен

makeme

  • Напреднали
  • *****
  • Публикации: 895
  • Distribution: Many
  • Window Manager: KDE
    • Профил
Знам че звучи тъпо предложение, но я погледни в тоя файл resheniepdf.txt дали дейтата е същата, като която ни постна?

пп: Да не си злоупотребил със sed преди това  ;)
« Последна редакция: Oct 08, 2019, 21:45 от makeme »
Активен

Distributions:  UbuntuMate; Kubuntu; CentOS; Kali; Raspberry Pi OS ...

4096bits

  • Напреднали
  • *****
  • Публикации: 6736
    • Профил
Знам че звучи тъпо предложение, но я погледни в тоя файл resheniepdf.txt дали дейтата е същата, като която ни постна
+1

Горе си дал файла. Копирал съм целият текст в отделен файл, за да мога да тествам. Не зная, защо при теб дава различен резултат. Може да не е същия файл.

Каквато и да е версия 3.х на Python би трябвало да върши едно и също при този прост скрипт.
Активен

As they say in Mexico, "Dasvidaniya!" Down there, that's two vidaniyas.

supportpc

  • Гост
Колега грешката е моя извинявам се аз го чета от другият файл но си мислех че ще работи с подобен файл.
Активен