Автор Тема: Собствен Web Spider /Bot  (Прочетена 1089 пъти)

Naka

  • Напреднали
  • *****
  • Публикации: 3396
    • Профил
Собствен Web Spider /Bot
« -: Apr 03, 2013, 10:41 »
Чудя се дали не знаете някой Web Spider, който да може да се настрои да търси точно определени неща в мрежата.

Например да може да се зададе тематиката - т.е. по кои страници да ходи, като страници от друга област ги игнорира и избощо не ги проследява.
А като намери сайт от дадената тематика, да търси вътре ключови думи и фрази.

Мисълта ми е за SEO, за намиране на подходящи места където може да се пускат линкове - (не става въпрос Spider-а да submit-ва линкове, а само да намира местата).
Например като намери подходящ тематичен сайт да търси вътре фрази от рода на 'submit article' 'reply' 'add site' 'blog it' и т.н.

Със гого вече нищо не мога да намеря... Четох и доста за спайдерите, има много, има и тематични..., настройват се, но не мога да се ориентирам кой би свършил работа.
Активен

Perl - the only language that looks the same before and after encryption.

n00b

  • Напреднали
  • *****
  • Публикации: 1248
  • Distribution: OSX
  • Window Manager: 10.6, 10.8, 10.9
  • Live to hack, hack to live.
    • Профил
Re: Собствен Web Spider /Bot
« Отговор #1 -: Apr 03, 2013, 18:51 »
ох... направо ме настъпи по мазола...

PS: В момента работа по подобна тематика и живо ме интересува и мен.
Активен

mobilio - професионални мобилни приложения

Oxy

  • Напреднали
  • *****
  • Публикации: 253
  • Distribution: Fedora / Gentoo / Debian
  • Window Manager: KDE (4.2/ 3.5)
    • Профил
    • WWW
Re: Собствен Web Spider /Bot
« Отговор #2 -: Apr 04, 2013, 00:11 »
Ако ви се стартира проект с отворен код и жаба, мога да одаря едно рамо

Naka

  • Напреднали
  • *****
  • Публикации: 3396
    • Профил
Re: Собствен Web Spider /Bot
« Отговор #3 -: Apr 04, 2013, 11:02 »
Засега научих, че такова нещо се нарича 'Focused crawler'
http://en.wikipedia.org/wiki/Focused_crawler

Има и друго подобно понятие (vertical search engine):
http://en.wikipedia.org/wiki/Vertical_search

Apache имат голям проект за spider наричан nutch http://nutch.apache.org/about.html

Има много настройки, но още не мога да разбера дали може да се настрои за 'фокусирано' претърсване. Ставало чрез някакъв филтър.
Писан е на Java. Не мога и да проумнея каква е тази мода всички да пишат spider-и на Java.


« Последна редакция: Apr 05, 2013, 20:17 от Naka »
Активен

Perl - the only language that looks the same before and after encryption.