Linux за българи: Форуми

Linux секция за начинаещи => Настройка на програми => Темата е започната от: Infestdead в Dec 02, 2005, 01:28



Титла: wget и robots
Публикувано от: Infestdead в Dec 02, 2005, 01:28
Примерен код
wget -r "http://store1.data.bg/necrobuda/Music/Leningrad%20Cowboys/"

Така... това НЕ сваля съдържанието на въпросната примерна папка.
След четене насам натам разбрах за robots.txt. Да обаче ...
Примерен код
wget -r -e robots=off "http://store1.data.bg/necrobuda/Music/Leningrad%20Cowboys/"

... това също не сваля нищо друго освен index.html и някакви други непотребни работи.
Едитване на /etc/wgetrc и там robots=off също не помогна.
Та въпроса в крайна сметка ми е: как с wget се сваля рекурсивно от data.bg (от фрй-евро-нет-а например всичко си работи!;).
Проблема дали е в тия пусти роботи или някъде другаде?

Благодаря предварително. :)


Титла: wget и robots
Публикувано от: Infestdead в Dec 02, 2005, 23:54
и ъп:) Ако някой не е видял темата, но знае! :)


Титла: wget и robots
Публикувано от: Hapkoc в Dec 03, 2005, 00:51
виж -D :)
нарочно не ти пиша цялото решение на задачката  :D

ако не се оправиш свиркай


Титла: wget и robots
Публикувано от: Infestdead в Dec 03, 2005, 02:15
Ами пробвах го -D четох из man-а, info-то, нета, и не намерих начин да го комбинирам по-някакъв начин и да реша загадката, а именно - да свалям рекурсивно от data.bg ;). Така, Hapkoc, ако наистина знаеш решението - да споделиш :) ще съм благодарен :)

!едит:!
опа опа намерих решението:))))
Примерен код
wget -r -H "http://store1.data.bg/necrobuda/Music/Leningrad%20Cowboys/"


инфо за -H :
When `-H' is specified without `-D', all hosts are freely spanned. There are no restrictions whatsoever as to what part of the net Wget will go to fetch documents, other than maximum retrieval depth.

още инфо:
http://www.lns.cornell.edu/public/COMP/info/wget/wget_4.html

Hapkoc 10x за насоката:)


Титла: wget и robots
Публикувано от: zeridon в Dec 03, 2005, 15:27
Аз ползвам едно по елемнтарно решение
пускам го веднъж с -r след това echo "" > robots.txt && chmod -xw robots.txt

и след това няма проблеми


Титла: wget и robots
Публикувано от: в Dec 03, 2005, 18:06
Infestdead, става и така, обаче май е по-културно да се укаже изрично към кои домейни е позволено да се връзва. За изтегляне на съдържанието на директория от data.bg ползвам нещо от рода на:

$ wget -c -t 0 -r -np -nd --domains=free.data.bg <url>

Идеята е, че <url> сочи към storeX.data.bg, но линковете в самата страница са към free.data.bg/f.php?neshtosi или нещо от тоя род.

Поздрави. :)