Blokiranje web crawlersa

Jel zna netko kako to sto bezbolnije izvesti a da ne steti search engine botovima?
Citao sam dosta, al nigdje nisam nasao gotovo rjesenje sto mi je nekako neprihvatljivo da nema.

Naravno da nema. Jedino dobro rjesenje je cloudflare, oni prepoznaju sve te crawlere i mislim da imaju rjesenje da crawler ne optereti server.

A zasto se time mucis?
Jedini probem ovog je opterecenje servera, sto i nije problem ako je server dobro podesen ili ako imas neki filter za te crawlere. Ali vecina tih crawlera je lijepo napravljena pa niti neznas da su crawleri i jako su njezni na server.

Zar cloudflare ne utjece na brzinu ucitavanja stranice? Jer sam vidio na nekima da imaju preloadere, sto mi je nedopustivo.
Nije problem u crawlerima generalno vec u scropanju sadrzaja stranice, buduci da je sadrzaj uniqe od 100k podstranica, bar da otezam takve stvari.

Ne, dapace, stranice se brze loadaju s Cloudflarom jer ih on cachira i ima dobru infrastrukturu.

To sto si vidio je “I’m under attack” opcija koja provjerava browser u slucaju ddosa.

Za crawlere trazi robot blackhole. Nije savrseno, ali trebalo bi rijesit problem crawlera koji ne postuju robot.txt

1 Like

To ti je borba protiv vjetrenjaca, nista nemoze crawlera zaustaviti.