5 GB za jedan dan a inače cca 50-100 MB - botovi problem?

Imam jednu strnicu koja je nedavno bila blokirana od hostinga resursi.

Naime navodno da skripta ne radi dobro da previše troši resursa.

Pregledano sve, i od tvoraca skripte, sve uredno. Nitko ništa dirao nije.

E sad gledao sam aw stats cPanel logove, i našao brdo botova bez imena.i yandex koji sam blokirao jučer IP poznate adrese.

Danas:
Viewed traffic * 157
206
(1.31 visits/visitor) 1,093
(5.3 Pages/Visit) 5,493
(26.66 Hits/Visit) 342.19 MB
(1700.98 KB/Visit)
Not viewed traffic *
356,050 359,004 4.68 GB

Dakle danas 350 000 stranica od botova???

Kako da riješim imam samo pristup cPanelu a botovoi su tipa iz Awstats za danas:
Unknown robot (identified by ‘bot’ followed by a space or one of the following characters _+:,.;/-) 297,376+236 4.34 GB 07 Jun 2017 - 13:51
Unknown robot (identified by ‘robot’) 5,959+6 70.88 MB 07 Jun 2017 - 13:59
Googlebot 4,155+162 43.46 MB 07 Jun 2017 - 13:56
Unknown robot (identified by ‘crawl’) 3,190+1 59.66 MB 07 Jun 2017 - 08:53
Unknown robot (identified by empty user agent string) 373+1 3.21 MB 07 Jun 2017 - 06:54
Unknown robot (identified by ‘spider’) 222 2.67 MB 07 Jun 2017 - 13:16
Googlebot-Image 129 14.57 MB 07 Jun 2017 - 12:33
Unknown robot (identified by ‘bot’ preceded by a space or one of the following characters _+:,.;/-) 127 11.20 MB 05 Jun 2017 - 17:35
Yahoo Slurp 8+5 35.84 KB 06 Jun 2017 - 15:52
Bing Preview bot 11 614.83 KB 07 Jun 2017 - 07:10
A PHP script 8 2.92 MB 06 Jun 2017 - 12:56
Unknown robot (identified by hit on ‘robots.txt’) 0+4 1.29 KB 05 Jun 2017 - 11:36

Prvi je red problematičan…

što se da napraviti radi se o saju koji ima 15-20 objekata za iznajmljivanje i to je to.

Prebaci se na HTTPS i podesi Strict Transport Security (STS) na serveru.
U headeru obvezno ostavi naredni kod aktivan:

Header always set X-Frame-Options SAMEORIGIN
Header always set X-Content-Type-Options nosniff
Header always set x-xss-protection "1; mode=block"

To će otjerati gamad bez obzira s koje IP adrese dolazili. Naravno, X-Frame ne dolazi u obzir ako vučeš neki feed, ovisi o tipu stranice koju imaš.

Sretno!

Cloudflare Free pa tamo tim botovima ce lupat captchu, pa ce se smanjit leech.

Pozdrav, stavio sam taj kod, no nisam razumio da li on mora biti na HTTPS da to radi?
Domena nije. Shared hosting. Nemam pristup ničemu osim cPanela.

Na onom checkeru kaže ocijena A dakle čita kod, no da li on radi sada nešto i što?

Ako su botovi ili inkudani neki frajmovi, poznato mi je jer sam imao sličan problem sa WP stranicom isto apartmani nekretnine, gdje je ekipa iz HR a i izvana uzimala podatke za svoje tražilice putem nekih alata koji doslovno uzimaju ili cijeli web ili dijelova za web direktno učitava sa domene klijenta.

Naravno da mora.
Prvo napraviš redirect (permanent, 301) s http na https. Ujedno odrediš da li će ti web biti www ili non-www (odabereš jednu opciju).
Zatim na https hostu (443) podesiš STS i to je to.

Inače ako ostaviš mogućnost pristupa i po http portu nisi ništa napravio.

By the way: to vjerojatno nisu botovi, to su crawleri o čemu ti @dadaas više može pojasniti.

Nisam ni ja na cisto s tim crawlerima. Dali ih banati ili ne? Mislim debelo smo ugazili u HI Tech eru i svako neko limitiranje je IMO smjesno. Da trose oni resurse i bandwith, ali zasto da ja idem s antibioticima na njih kada mogu ih ostaviti i preboljeti za tjedan dva, no za to treba imat pravi host a ne neki shared host LIMITED (znam da na njima pise unlimited, sto je apsurd, haha)

Poanta cijele price je sto ekipa nece uloziti u kvalitetan hosting. Tu se trkrlja o silnim zilijunima, zaradama, qurcu-palcu a ovamo se gleda da se na godinu plati 100 kn pa se onda javno place i kuka na forumu. Generalno gledano, 5 Gb dnevno i nije neki promet. Pa nasi shared paketi idu do 1 Tb mjesecno!

1 Like

Hosting je OPTIMA HOSTING i za pare od par tisuća godišnje dobije se super usluga.
To sa 100 kuna daj molim te…

Evo upravo sam proslijedio tvoj web klijentu da li želi da ide na drugi server. Ako da vjerovatno ti se javi.

Stvar je da se i dalje ponavlja svaka tema koja igdje ima spomenutu riječ server, odmah ne valja, odmah valja samo nešto drugo.

PROBLEM je netko sa IP adrese do koje ne mogu ne znam, stalno crawla, ili što god.
Generira korisniku preko 5GB dnevno što nije puno, ali s obzirom da ima cca 100-200 posjeta dnevno, to je previše.
Jer inače ima po par sto MB.
I problem je bio što je hosting u jednom trenutnku smanji resurse.

I što sad? Tražim ako netko zna kako doći do ovog:
Unknown robot (identified by ‘bot’ followed by a space or one of the following characters _+:,.;/-)

samo to.

Hvala

pa i ne bas. napisao sam, ali mislim da me mnogi nisu razumjeli.

Zivimo u 2017 godini, uskoro ce doci blockchain internet i sta ti ja znam svasta nesto, a neki ljudi se ponasaju kao da je 1999.

pa dajte molim vas, znaci blokirat cemo krawlere? koje? pa sta nebi i gogole crawlera blokirali pa mozda onda promet bude 1kb, klijent bi onda trebao biti stvarno sretan i ponosan kako ima mali promet na svom siteu. ili jos bolje bi bilo da napravi blank page, bijeli (jer i boje trose), i crna slova, u biti ne crna, nego onaki sivo bijela, tek toliko da se dade procitati, pa bi onda promet bio 1byte? klijent jos sretniji…

haha, moram biti sarkastican, ali blokiranje krawlera i igranje s njima mislim da je 1999 i da kako ti kaze @ControlEng pa ako je taj klijent ozbiljan nek si kupi hosting kak treba, ima i shared hostinga kak treba ako vec nema novaca.

@ControlEng To sto si predlozio mu nece pomoci sa botovima i nema veze s time da zabranis bot/crawler. To su neke prevencije za crossite scripting i par drugih apache attackova + locking na https (mislis valjda na HSTS, a ne STS), ali s tim se moze upucat u nogu, ako nije ziher hoce li sajt ikad ic na http opet…

@webmajstor007 pogledaj u logu kako izgleda cijeli request i blokaj ga prema User Agent kroz .htaccess… Btw, a sto ne pitas taj hosting kojeg hvalis da ti pomogne? :slight_smile:

1 Like

kao bot creator badava mu sve, bori se s vjetrenjacama. jedino sto moze napraviti je nesto tipa ovog mog sarkastocnog posta gdje bi botovi uredno ulazili na site, a ovi “vazni” Google, Bing i ostali koje svi volimo nebi. E to bi onda bio zaheb stoljeca, hahaha

EDIT:
A i neznam sad dali sam gore spomenuo cloudflare? Pa zar je tako tesko se uclanit i uzet free verziju i podic nivo na paranpoid pa nek svatko tko ej sumnjiv upisuje captchu?

Radit će. Poanta i je u ovim crosssite scriptama u 90% slučajeva one i jesu uzrok ovog “zla” na koje se @webmajstor007 žali. Što se mene osobno tiče, samo bih to pustio a hosting koji ne može izdžati 5 Gb dnevnog prometa (smanjuje resurse) zaobišao u širokom luku.

Kako ne bi ispalo da reklamiram svoju tvrtku, evo predlažem mu neka savjetuje klijentu da se prebaci kod tebe :wink:

Neka upuca u .htaccess to sto si mu napisao pa ce vidjeti. Ako ne pomogne, neka ga ili bana prema UserAgentu ako ostaje isti, ili prema IP adresi ako ostaje ista…

Moj savjet mu je nek bana 127.0.0.1 jednostavno u .htacessu
Order Deny,Allow
Deny from 127.0.0.1

tak nesto i mirna bosna.

p.s. odlazim prije nego ja dobijem ban, haha, sorry @c3po

I šta sada da ja tu kažem. Joj kako je to bilo smiješno, umro sam na podu se valjam…bla…

Sve toliko konstruktivno da mi puca glava od savjeta dobrih ovih dana…

Ništa ostavljam posao sa serverima i sve selim kod serverlaba jer eto crawleri od 5GB su mi uništili volju za radom :slight_smile:
Čovjeće! :slight_smile:[quote=“ControlEng, post:12, topic:37983”]
Kako ne bi ispalo da reklamiram svoju tvrtku, evo predlažem mu neka savjetuje klijentu da se prebaci kod tebe :wink:
[/quote]
Svaka čast na pomoći ali sorri možda već podsvjesno u svakoj rečenici pročitaš ono što želiš da vidiš.
Pa tko je rekao da je hosting loš?
Brinem se za klijente, te ako ima poveću potrošnu CPUa i slično, reagiram.
Jer to čini loš hosting*? Gdje si ti to zaključio?
A ako ćemo gledati po prometu firma koje hostaju…onda je skroz druga priča :slight_smile: Think about it!

Lock, briši temu ili što god, jer ovo nema smisla. Mislim da nakon ovoga sam izgubio volju uopće bit na ovom forumu.
SVAKA JE*** tema koja ima server riječ ima ovakve krajeve i dijelove…

hahahaha, sorry, ali ja nisam mogao odoljeti i pokusao sam to objasniti na neki komican pomalo sarkastican nacin, znam mozda si se uvrijedio, ali nemoj, nije mi to bio cilj.

Uglavnom ukratko: Sa crawlerima se nitko danas ne muci, oni vecinom rade preko HTTP protocola, odnosno vecina njih skida samo tekst, sto ne trosi puno. Ovi crawleri koji nabijaju promet su ovi koji ganjaju slike, a to je najveci Google, mislim da nitko tko je u nekom biznisu na ovoj planeti nebi banao Google Crawler. Google Crawler je i najposlusniji, njemu lijepo kazes nemoj i on nece. A ovi crawleri koje bi ti banao po user agentu ili IPsu ili neznam tocno kako ce odgovoriti:
hebe mi se sto ti radis ja sam dosao tu da crawlam, banirao si IP, no problem imam ja drugi IP, nevolis moj useragent? (a on koristi naprimjer najcesci useragent), ja ga promjenim i na kraju sta me jebes s tim captchama, pa nevidis da me one nemogu zaustaviti jer decki iz Azije to rjesavaju u par sekundi.

E sad ti baniras po najcescem user agentu, sta si napravio, malo blazu verziju nego da si banirao cijeli svoj server.

zbog toga se ne isplati zamarat s tim crawlerima, jer niti neznas koji je koji, ciji je ciji, koji su dobri, koji losi, jer su svi oni undercover.

jedino sto mozes napraviti je, instalirati Cloudflare koji sma ti toplo preporucio i staviti na max paranpoid settings i svi koji prebrzo rade nesto na tvojoj stranici ce dobiti captchu, tzo nece zaustaviti sve crawlere, ali ce ih usporiti i oni nece potrositi 5Gb u jednom danu, nego u 2 dana ajmo tako rec.

i nemoj se ljutiti jer evo nadam se da si s ovim odgovorom sretniji, ipak sam si dao truda…

ma to sve umara, nisam mislio ni ja ništa loše, forum sam doživio kao pomoć jedni drugima, i je pomoć.

Samo ponekad na određenim temama se mora unesti nešto tipa to što koristiš je shit, to što raiš je shit, to što ovo ono bla bla. Općenito takve teme, a jučer mi je bio fakat dan.

Hvala na savjetima.