Vlastiti web robot kao npr Googlebot

jel postoji način da se napravi vlastiti spider, robot, kao googlebot, koji traže websiteove sa određenom ključnom riječi i šalje stranice u txt formatu na server ? :slight_smile:

…nemojte me odma sutnut :nene:

Postoji.

Baš si zločest! :wink:

Istinu kaže. Zaista postoji način.

Ja sam baš razmišljao o tome i mislim da bi se mogao napraviti u svakom jeziku koji omogučava socket konekcije.

Što praktički znači da se čak i u Flashu da napraviti. No igrao sam se sa Flashom i tu su restrikcije i nisam baš uspio nešto najbolje izvesti no Adobe Air ima komponente koje mogu učitavati html stranice, te nema restrikcija. Tako da bi se snjim dalo nešto izvesti. Ovo bi bilo desktop rješenje.

No tu su i php, python asp, java itd.
Mislim neki osnovni koncept je i više nego jednostavan, treba samo učitati stranicu i sljediti linkove koji su na stranici :).

I ono što je najbolje što frameworci od gore navedenih jezika već imaju gotove metode kojima bi lako mogao izdvojiti tagove.

pravio sam ja botove u C#, tako da vjerujm da postoje i neke gotove skripte/aplikacije

[quote=“eldžo”]jel postoji način da se napravi vlastiti spider, robot, kao googlebot, koji traže websiteove sa određenom ključnom riječi i šalje stranice u txt formatu na server ? :slight_smile:

…nemojte me odma sutnut :nene:[/quote]

Postoji i zove se nutch

http://lucene.apache.org/nutch/tutorial8.html

nije problem to isprogramirati… ali ako želiš pokrit cijeli web ne želim ni razmišljati kakva konekcija i kakav hardware bi ti trebao…

python is the way to go :slight_smile:
ima gotov HTML parser u standardnom librariju i http protokol koristi bez problema

HTML parser je najveci problem za napravit

Zasto radit svoj kad ima hrpa gotovih? :wink:

Baš to, mislim da html možeš jako lijepo parsat sa DOMDocumentom i kako Ivan kaže postoji puno gotovih i ako se ne varam Zend ima jednu jako dobru biblioteku za manipulaciju HTML/XML-om :slight_smile:

Kada god treba nešta parsat ili obradit html koristim DOMDocument, a ako znam i putanju XPath. Firebug ima lijepu opciju :D. Odeš do elementa i copy XPath :D.


Copyright © 2020 WM Forum - AboutContact - Sponsored by: Mydataknox & Webmaster.Ninja