Отпечатай - wget и robots

Титла: wget и robots
Публикувано от: Infestdead в Dec 02, 2005, 01:28

Примерен код

wget -r "http://store1.data.bg/necrobuda/Music/Leningrad%20Cowboys/"

Така... това НЕ сваля съдържанието на въпросната примерна папка.
След четене насам натам разбрах за robots.txt. Да обаче ...

Примерен код

wget -r -e robots=off "http://store1.data.bg/necrobuda/Music/Leningrad%20Cowboys/"

... това също не сваля нищо друго освен index.html и някакви други непотребни работи.
Едитване на /etc/wgetrc и там robots=off също не помогна.
Та въпроса в крайна сметка ми е: как с wget се сваля рекурсивно от data.bg (от фрй-евро-нет-а например всичко си работи!

.
Проблема дали е в тия пусти роботи или някъде другаде?

Благодаря предварително.

Титла: wget и robots
Публикувано от: Infestdead в Dec 02, 2005, 23:54

и ъп

Ако някой не е видял темата, но знае!

Титла: wget и robots
Публикувано от: Hapkoc в Dec 03, 2005, 00:51

виж -D

нарочно не ти пиша цялото решение на задачката

ако не се оправиш свиркай

Титла: wget и robots
Публикувано от: Infestdead в Dec 03, 2005, 02:15

Ами пробвах го -D четох из man-а, info-то, нета, и не намерих начин да го комбинирам по-някакъв начин и да реша загадката, а именно - да свалям рекурсивно от data.bg

. Така, Hapkoc, ако наистина знаеш решението - да споделиш

ще съм благодарен

!едит:!
опа опа намерих решението

)))

Примерен код

wget -r -H "http://store1.data.bg/necrobuda/Music/Leningrad%20Cowboys/"

инфо за -H :
When `-H' is specified without `-D', all hosts are freely spanned. There are no restrictions whatsoever as to what part of the net Wget will go to fetch documents, other than maximum retrieval depth.

още инфо:
http://www.lns.cornell.edu/public/COMP/info/wget/wget_4.html

Hapkoc 10x за насоката

Титла: wget и robots
Публикувано от: zeridon в Dec 03, 2005, 15:27

Аз ползвам едно по елемнтарно решение
пускам го веднъж с -r след това echo "" > robots.txt && chmod -xw robots.txt

и след това няма проблеми

Титла: wget и robots
Публикувано от: в Dec 03, 2005, 18:06

Infestdead, става и така, обаче май е по-културно да се укаже изрично към кои домейни е позволено да се връзва. За изтегляне на съдържанието на директория от data.bg ползвам нещо от рода на:

$ wget -c -t 0 -r -np -nd --domains=free.data.bg <url>

Идеята е, че <url> сочи към storeX.data.bg, но линковете в самата страница са към free.data.bg/f.php?neshtosi или нещо от тоя род.

Поздрави.

Linux за българи: Форуми

Linux секция за начинаещи => Настройка на програми => Темата е започната от: Infestdead в Dec 02, 2005, 01:28