Автор Тема: wget и robots  (Прочетена 1707 пъти)

Infestdead

  • Напреднали
  • *****
  • Публикации: 72
    • Профил
wget и robots
« -: Dec 02, 2005, 01:28 »
Примерен код
wget -r "http://store1.data.bg/necrobuda/Music/Leningrad%20Cowboys/"

Така... това НЕ сваля съдържанието на въпросната примерна папка.
След четене насам натам разбрах за robots.txt. Да обаче ...
Примерен код
wget -r -e robots=off "http://store1.data.bg/necrobuda/Music/Leningrad%20Cowboys/"

... това също не сваля нищо друго освен index.html и някакви други непотребни работи.
Едитване на /etc/wgetrc и там robots=off също не помогна.
Та въпроса в крайна сметка ми е: как с wget се сваля рекурсивно от data.bg (от фрй-евро-нет-а например всичко си работи!'<img'>.
Проблема дали е в тия пусти роботи или някъде другаде?

Благодаря предварително. '<img'>
Активен

/usr/bin/drinking
archlinux 0.7.2, gnome 2.16

Infestdead

  • Напреднали
  • *****
  • Публикации: 72
    • Профил
wget и robots
« Отговор #1 -: Dec 02, 2005, 23:54 »
и ъп'<img'> Ако някой не е видял темата, но знае! '<img'>
Активен

/usr/bin/drinking
archlinux 0.7.2, gnome 2.16

Hapkoc

  • Напреднали
  • *****
  • Публикации: 2117
    • Профил
wget и robots
« Отговор #2 -: Dec 03, 2005, 00:51 »
виж -D '<img'>
нарочно не ти пиша цялото решение на задачката  '<img'>

ако не се оправиш свиркай
Активен

Infestdead

  • Напреднали
  • *****
  • Публикации: 72
    • Профил
wget и robots
« Отговор #3 -: Dec 03, 2005, 02:15 »
Ами пробвах го -D четох из man-а, info-то, нета, и не намерих начин да го комбинирам по-някакъв начин и да реша загадката, а именно - да свалям рекурсивно от data.bg '<img'>. Така, Hapkoc, ако наистина знаеш решението - да споделиш '<img'> ще съм благодарен '<img'>

!едит:!
опа опа намерих решението'<img'>)))
Примерен код
wget -r -H "http://store1.data.bg/necrobuda/Music/Leningrad%20Cowboys/"


инфо за -H :
When `-H' is specified without `-D', all hosts are freely spanned. There are no restrictions whatsoever as to what part of the net Wget will go to fetch documents, other than maximum retrieval depth.

още инфо:
http://www.lns.cornell.edu/public/COMP/info/wget/wget_4.html

Hapkoc 10x за насоката'<img'>
Активен

/usr/bin/drinking
archlinux 0.7.2, gnome 2.16

zeridon

  • Killmode enabled
  • Administrator
  • Напреднали
  • *****
  • Публикации: 1398
  • Distribution: Debian/Ubuntu
  • Window Manager: console/Gnome
  • BOfH
    • Профил
    • WWW
wget и robots
« Отговор #4 -: Dec 03, 2005, 15:27 »
Аз ползвам едно по елемнтарно решение
пускам го веднъж с -r след това echo "" > robots.txt && chmod -xw robots.txt

и след това няма проблеми
Активен

Внмимавай имам клещи за кабел
http://www.netsecad.com/
http://theregister.co.uk/odds/bofh/

  • Гост
wget и robots
« Отговор #5 -: Dec 03, 2005, 18:06 »
Infestdead, става и така, обаче май е по-културно да се укаже изрично към кои домейни е позволено да се връзва. За изтегляне на съдържанието на директория от data.bg ползвам нещо от рода на:

$ wget -c -t 0 -r -np -nd --domains=free.data.bg <url>

Идеята е, че <url> сочи към storeX.data.bg, но линковете в самата страница са към free.data.bg/f.php?neshtosi или нещо от тоя род.

Поздрави. '<img'>
Активен

Подобни теми
Заглавие Започната от Отговора Прегледи Последна публикация
wget
Настройка на програми
jojopara 1 2715 Последна публикация Jun 12, 2003, 21:20
от mironcho
wget
Настройка на програми
zmei 0 1371 Последна публикация Jan 15, 2005, 10:24
от zmei
за wget
Настройка на програми
dbaniza 5 2258 Последна публикация Jan 27, 2005, 14:52
от alex_c
Най-добрия GUI за wget?
Идеи и мнения
Mona 10 3547 Последна публикация Apr 02, 2005, 22:44
от JOKe
wget
Настройка на програми
Yuri 8 3443 Последна публикация Sep 13, 2005, 20:28
от i12805