Besplatni datascraper sa cronjobom

Dakle klijent se interesira da se dohvate njegovi oglasi sa njuškala.
Kako oni nemaju ništa prema van kaojson, export itd, pitao sam ih, interesira me kako do oglasa koji su postavljeni?
Neki datascaper može biti lako blokiran, a i morao bi imati neki cronjob.

Cilj je povezati sa webom, oglase.

Da li je netko radio neki tip konekcije takav?

Radio je @bozoou ja mislim, ali je odustao valjda zbog mogućih legalnih posljedica

Kakvih legalnih posljedica?

Covjek zeli svoje oglase skinuti. Koje je jos vjerojatno i platio njuskalu, neznam gdje je tu problem.

Ja mogu napraviti .exe , a periodicno ga runas s task shedulerom

Nije problem u tome sto ti skines podatke, nego je problem sto s njima dalje radis, a to kreatora programa nemora interesirat jer on s tim nema nista. To je isto kao da si sejvnes neki clanak u pdf formatu da ga kasniej procitas, no harm done, ali ako ga negdje drugje objavis onda je problem…

Uostalom kakva je razlika dali ti copy paste rucno radis ili to napravi bot. Bot ce jos biti ljubazniji prema serveru…

Kako gdje? Objavljeno na njuškalu je vlasništvo njuškala. Ako ne želi ne mora, može ih nalijepiti sebi na zidu u stan, pa skidati i premještati kako želi…

Da i OK. Njihovo vlasnistvo i ja i nitko im to ne osporava niti ista radi s njihovim vlasnistvom osim sto ga cita…

Zar se nesmije citat?

Čitati i scrapati nije isto. Vidiš da je kolega već pretpostavio da bi ga mogli blokirati. Nemoj molim te u raspravu jer znaš šta hoću reći i znaš da je tako. Sada možemo landarati ovdje do sutra, a ne želim jer sa mobitela pišem

Ne, nisi u pravu. U krivo si i to JAKO.

Scrapanje nije ilegalno, pa Google to radi svakidan. Problem je sto kad netko scrapa onda to koristi u ilegalne svrhe.

A scrapanje ili necu to ni zvati scrapanje nego copy paste podatke u .csv nije nista drugacije nego kada na oglasu stisnes gumb print screen pa onda mozes ili printati ili sejvati u PDF, ista stvar i jedno i drugo je po defaultu dozvoljeno.

A ona prije rasprava u kojoj je @bozoou sudjelovao je mislim bila drukcije prirode gdje se skidalo sve podatke i onda pratilo promjene cjena i to i nije problem nego je problem kada se takvi servis ide naplacivat trecim osobama…

@webmajstor007 Ako si normalan korisnik a ne neka bitanga koja siluje server onda te ence nitko blokirat nigdje.

A trazenje besplatnog datascrapera je kao da trazis da ti netko uvali virus…

Koga zanima malo vise u detalje:

Znaci daleko od tgoa da se kaze Scrapanje je Ilegalno…

Blokirat? Jesi ti zdrave glave?

Dislaimer: Nisam ja nego sam cuo pricu

“Skinuli” se njuskalo public mailovi vec najmanje 10 puta, necu ni govoriti koliko je mailova dobiveno, ako “taj” nije banan onda te nitko nece banat.

1 Like

Mislim da se mogu još neki uključiti, pa ćemo vidjeti razvoj situacije @tony , @bozoou i drugi.

Ti si iz nekog razloga pretpostavio da se podacima neće manipulirati, ali vlasnik tih podataka to ne zna i to ga ne zanima. On ako želi može blokirat takav pristup podacima, i otići korak dalje i pokrenuti pravni postupak.

Evo vidim @aaaaaa21 se uključio, argumentirano, pa bolje da odustanem.

Ja ti govorim istinu, pa ti misli sto hoces.

@bozoou kao programera bi trebala boljet ona stvar sto ce vlasnik koji je platio softwer raditi s njim. Na njemu je.

Ista stvar se desava sa velikima, Google skida sve i svasta i zadire u privatnost plus jos seraju ili su se jedni na druge nakacili s Facebookom. Sve je legalno dok ne pocnu koristiti te stvari u ilegalne svrhe.

A i nema se sta tu raspravljat ovako napamet ko babe na placu, stavio sam link ovbjasnjeno donekle plus sudovi i kako su zavrsili, samo tu su se podaci koji su scrapani korsitili, a ja govorim da programer kao programer nije dogovoran kako ce osoba koristiti program.

Iskreno ova rasprava mi je smijesna. Cijeli internet funkcionira na scrapanju podataka… Feedovi, Google, bogte, ako imas site pogedaj crawlere koji rade na dnevnoj bazi… Zasto bi oni slobodno crawlali neki website a ti nebi smio? Pa i ti si sam sad crawlao ovaj forum, mozda si oznacavao tekst tiskao ctr copy pa pastao u .txt i eto po tvom misljenju to je ilegalno…

Pazi primjera, neki dan trazio lik forume i sta da mu ja sad dam listu foruma, otvorimo topic i ja napravim 1000 postova u svaki post 1 link, on to zeli snimiti u .txt, nemoze jer krsi zakon ako ide crawlat, manualno ili automatski, nego mora ocima procitati i sa rukom natipkati…

Drugi primjer pises neki clanak, neko istrazivanje, diplomski rad, zelis si kopirat recenice gdje se spominje neka rijec u nekom dugackom pdf clanku na 1000 stranica…

Eto to su samo primjeri…

Mogu cjeli dan pisat primjere:

https://www.junglescout.com/

Mozda spominjanje ahrefs.com zavrsi raspravu?

Neznam sta ih Amazon nije tuzio…

1 Like

Ako zelis upravljati svim podacima koje si dao Njuskalu (pa tako i skinuti oglase ili cak izbrisati sve), to mozes vrlo jednostavno preko weba napraviti kroz sucelje koje postoji bas za tu svrhu (tab “Upravljanje racunom”).

Developer sam pa ne znam sve o legal stvarima, ali ovako na prvu bih rekao da su opcije:

  1. savjetovati se s odvjetnikom ili nekom drugom relevantnom osobom
  2. procitati Uvjete i pravila koristenja Njuskala gdje, izmedju ostalog, trenutno pise “Nije dopušteno kopiranje i uporaba bilo kojeg dijela stranice Njuškala, uključivši podatke koje daju korisnici, bez prethodnog pismenog dopuštenja Njuškala”, te kontaktirati Njuskalo gdje im mozes opisati sto zelis napraviti i mozda dobiti zeleno svjetlo pa si miran
  3. ne napraviti niti 1. niti 2., nego bazirati svoju odluku na savjetima ljudi koji nisu iz legal svijeta niti Njuskalo osobe koje ti mogu dati zeleno svjetlo
1 Like

Ja se u potpunosti slazem sa stavkom dva. Ali ovdje kao da pricaju gluh i nijem. Ja imam pravo stisnuti ctl copy i onda napraviti ctrl paste u doc file… I ako su oni napisali da ja nemam to pravo napraviti ja to mogu napraviti jer oni nikada nemogu znat da sam ja to napravio, isto vrijedi stisnuti print tipku i onda isprintati na papir…

Za ovo ti netreba odvjetnik, odvjetnik ti treba za ono sto ti zelis napraviti s tim podacima, dalje ih plasirati, dati neki servis ili bilo sto vezano za njih moras se savjetovati s odvjetnikom i sa Njuskalom…

Pa da, isto sto imas pravo skinuti svoje oglase, slike, klipove itd, tvoji su, uploadanjem svojeg sadrzaja ne znaci da ta stranica tebe moze tuziti jer si skinuo svoje nesto. I ako te kojim slucajem tuzi, tuzis i ti njih je zaraduju od tebe.

Ti slobodno skines i tudje podatke, samo je onda upitno sto radis s njima…

Ima situacija da korisnik objavi oglas sa istim podacima u vise oglasnika, a svaki ima ogranicenja.:grin::grin::grin:

Tu je gdpr i ako korisnik kaze, zelim da izbrisete sve moje podatke ukljucujuci i oglase, portal je to obavezan i uciniti i nikako se ne moze pozvati na to da su podaci njihovi, a ne od korisnika. Po gdpr korisnik ima pravo skinuti sve svoje podatke i to mu se mora omoguciti.

Ako korisnik zahtijeva brisanje podataka , portal mora to odobriti, tada dolazimo do toga da portal ne moze biti 100% vlasnik tih podataka.

Npr. Ja mogu objaviti oglas u 10 oglasnika i 20 foruma, jedan te isti oglas, jedan te isti text.

Nadalje ima poslovnih korisnika koji bi mozda htjeli poveznicu sa svojim erpom i sl., radi bolje organizacije, da ne moraju sve rucno raditi i sl., preko api-a.

Uglavnom ima tu hrpa stvari koje nedostaju, api je samo jedan od njih.

Isto tako objavljivanje vise oglasa preko api-a iz svojeg erpa.

Firma recimo kupuje novu opremu i staru recimo hoce prodati ili ili…

1 Like

Mislim da vam ova pjesma sve objašnjava:

Nema jasne linije između onoga što se smije i ne smije u nečijem dvorištu. To je vječita bobra osvajanja i obrane, koja prožima cijelu evoluciju i svako biće koje prisustvuje.

Što su uopće pravila?
Pa osvajač s jedne strane pokušava ući u nečije drvorište, a gazda se od toga upada brani ako je to u sukobu s njegovim interesima. Tamo gdje se oni sporazumno susreću, tamo nastaju sporazumni dogovori, ili ti ga “pravila”.

U kontekstu crawlanja, sve će biti dobro dok se gazde ne pobune. (Vrlo je intuitivno što se smije raditi a da se gazde ne pobune)
No kada se gazde pobune, onda postoji još prostora kojega gazde ne mogu braniti i ako se bune.
To je ta zona natezanja…jer jasna granica ne može postojati. Čak niti fizikalno. To bi bilo kao tražiti granicu između dva vremenska momenta.

Drugim rijecima ti uzmes taj svoj post i stavis ga na svoj sajt, lopovski google ti opali kaznu jer kopiras, a ti si autor posta i kao slag na torti ti dode vlasnik ovoga sajta i tuzi te jer mu krades postove. Svijet je super!

Raspravljati o ovome je kao sa onim gdpr noticeom, uzmes extension na chromeu i stavis da ti to sranje ne prikazuje.

Gore sam stavio toolove koji manipulisu Amazonom. Mozemo reci da je njuskalo slican amazonu. E sad amazon te siteve i te stranice niti ne mislis tuziti, oni cak ne diraju nikoga tko objavljuje iste tekstove, zato i imas na ebayu isti proizvod s istim tekstovima kao na amazonu, samo je cijena na ebay malo veca i tako…

A kao sto kazete prvo te on mora upozoriti pa onda tuziti. Pa kako ce on mene upozoriti sto sam ja skinuo sve nihove oglase snimio ih u .csv? Kako pobogu oni to mogu znati?

Evo odgovor od njuškala… kao i svemu možeš pokušati i onda se natezati s njima.

Prema Uvjetima i pravilima korištenja, točka 19. Nije dopušteno kopiranje i uporaba bilo kojeg dijela stranice Njuškala, uključivši podatke koje daju korisnici, bez prethodnog pismenog dopuštenja Njuškala.

Ovo pravilo, kao i druga Njuškalo pravila, možete pročitati ovdje.