Титла: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 08, 2019, 16:10 Това е следният код който използвам искам да изкарам само домейните със разширението
cat xxxxxx.txt | grep -i http | awk -F "//" '{ print $2 }' | awk -F "/" '{ print $1 }' ето и съдържанието на файла физически лица (предимно чуждестранни граждани) съдържат твърдения за инвестирани чрез част от долупосочените интернет платформи: 1. https://www.brokerz.com 2. www.olssoncapital.com 3. https://www.pbncapital.com/ 4. www.alphabetfx.com 5. www.afh.bg 6. https://aba.marketing 7. www.nextcoinmarket.com 8. www.arotrade.com 9. www.legalcfd.com 10. https://en.utrader.com/ 11. https://www.fxnobels.io/ 12. www.ptbanc.com 13. www.finmaxbo.com 14. www.finmaxcfd.com 15. www.profit-trade.com 16. https://www.crypto.com/en/ 17. https://www.trader.online/ 18. www.olympusmarkets.com 19. https://www.jpm-invest.com/ru/ 20. https://www.umarkets.com/ 21. https://swissinv24.com/ 22. www.marketscfd.net 23. www.wellingtoninv.com 24. www.cryptofg.com 25. www.cfds100.com 26. www.payboutique.com 27. www.infinitrade.com 28. https://www.finarix.com/ 29. https://sternmarkets.com 30. https://investingcapital.com/ 31. www.finixcapital.com 32. www.omegafx.io 33. https://www.royalcbank.com 1 територията на Република България чрез клон, е наличен на следния интернет адрес: http://142.132.247.59/public/index.php 2 Списъците с всички на държава членка на ЕС, заучени нотификации за предоставяне на инвестиционни услуги и дейности, на база свободата за предоставяне на услуги, са налични на следния интернет адрес: Р Е Ш И: I. Оповестява, чрез публикуване на интернет страницата на 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. https://www.brokerz.com www.olssoncapital.com https://www.pbncapital.com/ www.alphabetfx.com www.afh.bg https://aba.marketing www.nextcoinmarket.com www.arotrade.com www.legalcfd.com https://en.utrader.com/ https://www.fxnobels.io/ www.ptbanc.com www.finmaxbo.com www.finmaxcfd.com www.profit-trade.com https://www.crypto.com/en/ https://www.trader.online/ www.olympusmarkets.com https://www.jpm-invest.com/ru/ https://www.umarkets.com/ https://swissinv24.com/ www.marketscfd.net www.wellingtoninv.com www.cryptofg.com www.cfds100.com www.payboutique.com www.infinitrade.com https://www.finarix.com/ https://sternmarkets.com https://investingcapital.com/ 3 31. 32. 33. www.finixcapital.com www.omegafx.io https://www.royalcbank.com С публикуването на Решението на интернет страницата на предлагат инвестиционни услуги чрез горепосочените интернет страници, се считат за уведомени и са длъжни да преустановят предлагането на инвестиционни услуги чрез тях. На основание чл. 13, ал. 3 одневен срок от съобщаването му. Обжалването не спира изпълнението на Решението. ПРЕДСЕДАТЕЛ: 4 Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: makeme в Oct 08, 2019, 16:31 Ми доорежи ги чрез добавяне отзад:
Код
Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 08, 2019, 17:12 ами има 33 домейна, нещо не се получава повтарят се
Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: makeme в Oct 08, 2019, 17:22 ами има 33 домейна, нещо не се получава повтарят се Код
? Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 08, 2019, 17:25 не става
Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: makeme в Oct 08, 2019, 17:32 не ставаСмисъл? броя ги без sort: Код
броя ги със sort Код
Не разбирам какъв искаш да е резултата ? Ето го при мен: Код
Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 08, 2019, 17:41 cat rxxxxxx.txt | grep -i http | awk -F "//" '{ print $2 }' | awk -F "/" '{ print $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | sort -u
aba.marketing brokerz.com crypto.com en.utrader.com finarix.com fsc.bg fxnobels.io investingcapital.com jpm-invest.com pbncapital.com royalcbank.com sternmarkets.com swissinv24.com trader.online umarkets.com аз виждам само това ти как ги изкарваш много странно Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: makeme в Oct 08, 2019, 17:45 Може би е от версията на sort. Ето моята:
Цитат $ sort --version Ако твоята е по-стара, пробвай с sort --unique или виж хелпа. ПП: Махай пайповете един по един и виж къде става нещо, което не е. sed - трябва да маха www. , а grep -v , трябва да маха ИПта Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 08, 2019, 17:48 sort (GNU coreutils) 8.26
Copyright (C) 2016 Free Software Foundation, Inc. License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>. This is free software: you are free to change and redistribute it. There is NO WARRANTY, to the extent permitted by law. Written by Mike Haertel and Paul Eggert. Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: makeme в Oct 08, 2019, 17:53 sort (GNU coreutils) 8.26Странна работа. Пробвай тогава с sort | uniq Цитат cat test0 | grep -i http | awk -F "//" '{ print $2 }' | awk -F "/" '{ print $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | sort | uniq Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: 4096bits в Oct 08, 2019, 20:28 Файла се задава като параметър на скрипта.
Код: #!/usr/bin/env python3 Резултат: 142.132.247.59 aba.marketing aba.marketing afh.bg afh.bg alphabetfx.com alphabetfx.com arotrade.com arotrade.com brokerz.com brokerz.com cfds100.com cfds100.com crypto.com crypto.com cryptofg.com cryptofg.com ellingtoninv.com ellingtoninv.com en.utrader.com en.utrader.com finarix.com finarix.com finixcapital.com finixcapital.com finmaxbo.com finmaxbo.com finmaxcfd.com finmaxcfd.com fxnobels.io fxnobels.io infinitrade.com infinitrade.com investingcapital.com investingcapital.com jpm-invest.com jpm-invest.com legalcfd.com legalcfd.com marketscfd.net marketscfd.net nextcoinmarket.com nextcoinmarket.com olssoncapital.com olssoncapital.com olympusmarkets.com olympusmarkets.com omegafx.io omegafx.io payboutique.com payboutique.com pbncapital.com pbncapital.com profit-trade.com profit-trade.com ptbanc.com ptbanc.com royalcbank.com royalcbank.com sternmarkets.com sternmarkets.com swissinv24.com swissinv24.com trader.online trader.online umarkets.com umarkets.com Без съвпадения, отрязан първия ред с IP-то: Код: #!/usr/bin/env python3 Резултат: aba.marketing afh.bg alphabetfx.com arotrade.com brokerz.com cfds100.com crypto.com cryptofg.com ellingtoninv.com en.utrader.com finarix.com finixcapital.com finmaxbo.com finmaxcfd.com fxnobels.io infinitrade.com investingcapital.com jpm-invest.com legalcfd.com marketscfd.net nextcoinmarket.com olssoncapital.com olympusmarkets.com omegafx.io payboutique.com pbncapital.com profit-trade.com ptbanc.com royalcbank.com sternmarkets.com swissinv24.com trader.online umarkets.com Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 08, 2019, 21:31 Файла се задава като параметър на скрипта. Защо при мен изкарва само това ./domainconvert.py resheniepdf.txt aba.marketing brokerz.com crypto.com en.utrader.com finarix.com fsc.bg fxnobels.io investingcapital.com jpm-invest.com pbncapital.com royalcbank.com sternmarkets.com swissinv24.com trader.online umarkets.com Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: makeme в Oct 08, 2019, 21:41 Знам че звучи тъпо предложение, но я погледни в тоя файл resheniepdf.txt дали дейтата е същата, като която ни постна?
пп: Да не си злоупотребил със sed преди това ;) Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: 4096bits в Oct 08, 2019, 21:45 Знам че звучи тъпо предложение, но я погледни в тоя файл resheniepdf.txt дали дейтата е същата, като която ни постна+1 Горе си дал файла. Копирал съм целият текст в отделен файл, за да мога да тествам. Не зная, защо при теб дава различен резултат. Може да не е същия файл. Каквато и да е версия 3.х на Python би трябвало да върши едно и също при този прост скрипт. Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 08, 2019, 21:53 Колега грешката е моя извинявам се аз го чета от другият файл но си мислех че ще работи с подобен файл.
Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: makeme в Oct 08, 2019, 21:58 Колега грешката е моя извинявам се аз го чета от другият файл но си мислех че ще работи с подобен файл. Ще работи с всичко подобно на това , което си дал. Проблемът при домейните е , че те са имена. Сиреч текст, който за да го манипулираш, трябва да знаеш първоначалния текст. Може да са http, може и да не са. Може да са със subdomain "www." , може и да са просто с обикновен subdomain "primer.prime.com" . Отделно като добавиш че и топ левел домейни са изградени като субдомейни "co.uk" , "com.br" и тнт, става невъзможно да изкараш предвидимо нещо. пп: За нещо по сложно ти трябва база данни за сравнение, което не вярвам да ти е целта. Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 08, 2019, 21:59 има ли вариант да с енаправи независимо от файла само да изкарва домейните тоест файла ще бъде конвертиран от pdf на Текстов файл
Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 08, 2019, 22:01 Това е файла
https://www.fsc.bg/d.php?id=26812 Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: makeme в Oct 08, 2019, 22:07 има ли вариант да с енаправи независимо от файла само да изкарва домейните тоест файла ще бъде конвертиран от pdf на Текстов файл Виж сега, ние работим с текст така или иначе. Не вярвам това да ти е проблема. От къде си го взел или формата не е от значение. Ти накрая си обработваш тхт-то. Отварям една скоба разбира се- (енкодинга при извличането не трябва да го е напълнил с джибриш това тхт). Ако това се е случило - проблемът ти е в извличането на текста, а не в рязането му. И пак да кажа - рязането ще е такова, каквото искаш, само ако текста е подобен на това , което си ни дал. Ако забелязваш там има и поддомейн (en.utrader.com {не е TLD}) и за изкарването само на TLD-а ще е много сложен скрипт с някаква база на какво може да завършва. Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 08, 2019, 22:09 ами добре ще го мисля тогава как да стане
Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: makeme в Oct 08, 2019, 22:26 Колега грешката е моя извинявам се аз го чета от другият файл но си мислех че ще работи с подобен файл.Ей ти го проблема: Цитат $ docx2txt 1.docx - | awk -F "//" '{ print $2 }' | awk -F "/" '{ print $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | sort -u Виж например тоя няма хттп Код
Като го пейстнеш туk обаче има и ние копираме. Отделно първото което гледаш е слашовете след http. Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: makeme в Oct 08, 2019, 22:46 Ето ти и за твоя случай, но имай предвид че това не го препоръчвам, понеже ще извади всички споменати домейни в документа:
docx2txt 1.docx - | grep -E "[a-zA-Z0-9]+([-.]?[a-zA-Z0-9]+)*.[a-zA-Z]" | sed 's/https\?:\/\///' | awk -F "/" '{ print $1 }' | sed 's/www.//1' | grep -v -E "([0-9]{1,3}[\.]){3}[0-9]{1,3}" | grep -E "[a-zA-Z0-9]+([-.]?[a-zA-Z0-9]+)*.[a-zA-Z]+$" | grep -v " " | sort -u Ако имаш документ и трябва да направиш списък и в документа примерно пише: Тези са ... но тези не са.... Ти ще направиш списък с всички. И пак казвам, това е според подадения пример. Не може да е универсално. wc -l връща 33 ПП: Променил съм го , така че го пробвай пак. Стайлинга тук не го харесва много :) Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: 4096bits в Oct 08, 2019, 23:19 Сега...
Проблемът с файла е точно, че не е текст. Docx формата е zip компресия с един куп xml файлове вътре. За Python има eдин модул python-docx и мислех директно с docx файла да работя. Обаче енкодинга е тотално объркан, както в повечето документи на български, щото май почти никой не е чувал за utf-8. Успявам да извадя уеб адресите от втората колона на първата таблица например, но някои просто излизат като празен низ. Документа с една дума може да се нарече каша. Ето за пример, какво излиза при този опит. Код:
Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: 4096bits в Oct 09, 2019, 01:49 Така...
XML е шитняна работа и парсването е кошмар. А и отдавна не бях пипал Python, та забавих и покрай някакви елементарни грешки. Както казах, има модул направен за работа с docx документи, обаче в предния ми пост се видя, че читаво не излиза. Почти всичко липсва. Затова се хванах директно да работя с XML-а, с инструментите, които си идват с Питоня. Едва ли ще искаш да инсталираш модули. Скрипта: Код: import sys Файлът отново се задава като параметър, та да можеш да си посочваш, каквото желаеш. Изходът от горното върху docx файла, за когото даде линк: aba.marketing afh.bg alphabetfx.com arotrade.com brokerz.com cfds100.com crypto.com cryptofg.com ellingtoninv.com en.utrader.com finarix.com finixcapital.com finmaxbo.com finmaxcfd.com fxnobels.io infinitrade.com investingcapital.com jpm-invest.com legalcfd.com marketscfd.net nextcoinmarket.com olssoncapital.com olympusmarkets.com omegafx.io payboutique.com pbncapital.com profit-trade.com ptbanc.com royalcbank.com sternmarkets.com swissinv24.com trader.online umarkets.com Чакам си бирата ;D Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 09, 2019, 10:16 много благодаря трябва да почерпя
Така... Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 09, 2019, 10:19 много благодаря трябва да почерпя
Ето ти и за твоя случай, но имай предвид че това не го препоръчвам, понеже ще извади всички споменати домейни в документа: Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: 4096bits в Oct 09, 2019, 10:27 Забравих да добавя и шибанг реда най-горе, та ако ще го ползваш, може на първия ред да сложиш едно
#!/usr/bin/env python3 И може празен ред отдолу просто за по-лесна четимост. Успешен ден! Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 09, 2019, 10:51 направих го стана прекрасно още веднъж ти благодаря
Забравих да добавя и шибанг реда най-горе, та ако ще го ползваш, може на първия ред да сложиш едно Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: 4096bits в Oct 09, 2019, 13:09 http://www.supportpc.org/
Нещо общо с тези? :) Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 09, 2019, 13:22 Да това е мой домейн защо ?
http://www.supportpc.org/ Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 09, 2019, 13:30 само да не ме бъркаш с тези supportpc.biz и supportpc.hit.bg
Да това е мой домейн защо ?http://www.supportpc.org/ Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: 4096bits в Oct 09, 2019, 14:24 Дори не съм ги видял. ;D
Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: supportpc в Oct 09, 2019, 15:04 ясно
Титла: Re: Здравейте, имам следният проблем с прочитането на един текстов файл. Публикувано от: Yasen6275 в Oct 18, 2019, 12:55 Не може ли по-простичко:
Код ? |