Hvatanje elemenata sa web stranice - grab materijala

Trebam pomoć…

dakle imam jedan recimo zadatak.

trebam sa određene stranice, web dućan , kojoj nemam pristup bazi.

Dakle potrebno je pokupiti sa stranice proizvoda sve tesktove koji se nalaze unutar određenih HTML elemenata.

Dakle recimo kao email grabber samo da pokupio određene stavke na svakoj stranici proizvoda:

  • ime
  • opis
  • kategorija
  • te možda URL slike jedne

Da li netko ima ideju, ili možda kako rješenje?

pa treba ti software da to screpa. Scraping, googleaj. Mozda ako znas mozes i sma to napraviti.

Ili kupis ili mozda imas scrapebox, no to je za advanced usere tool

http://webscraper.io/

http://eventlet.net/doc/examples.html

Ovi ili ne rade bas kak treba ili su ultra jeftini. Ili njihove cijene ne drze vodu:
100,000 pages - $50
250,000 pages - $90
500,000 pages - $125
1,000,000 pages - $175
2,000,000 pages - $250

Kod mene bi to islo ovako i nije fiksno, ovisi o tome sto treba skinuti:
100,000 pages - $500
250,000 pages - $900
500,000 pages - $1250
1,000,000 pages - $1750
2,000,000 pages - $2500

EDIT:
Ako kodiras u Pythonu imas mali miljon nacina kako da napravis tog scrapera.

Nebih znao to je prvi link sa googla :smiley:

To su im cijene za Enterprise Data Extraction Service ali možeš slobodno skinuti njihovu chrome extenziju, pogledati video lekcije pod Learn na njihovoj stranici i napraviti sam scrapeanje.
Downside je da tvoj browser mora biti upaljen i da moraš sam dobro podesiti koje elemente dohvaćaš, koji su ti navigation linkovi itd. Dosta je dobro objašnjeno u tim tutorialima. Koristio sam ga nedavno za jedan test jer mi se nije dalo krenuti programirati jedan iz nule. Spojiš ga s http://www.wpallimport.com/ i imaš schedulanih postova za godinu dana :slight_smile:

1 Like

Da, samo gdje je tu proxy, multithreading i ostalo. Pa koliko mjeseci (a mozda i godina) bi mi trebalo da skinem 2 000 000 pages. I ne samo to, svi znamo da chrome puca po savovima kada ga se ne gasi, a koristiga se.

Mislim da ni 1000 pageva tu nebi proslo, da bi puko chrome. I sto onda? Sve ispocetka?

Ovaj extension je mozda dobar za do 100 pagese, ali sve iznad toga mislim da bolje da se ne koristi.

Ja sam jednom skinuo pola miljuna pagese, to je trajalo tjedan dana, koristio sam 10 simultanih programa na 4 kompjutera. Sve custom made, jedino tako se ovakvi veliki projekti mogu ostvariti, ovo sve ostalo je amaterizam.

Ili ako netko tu moze potvrditi da je s nekim opensource ili nekim jeftinim programom uspio skinuti 1000 pagese?

Sa eventletom 20.000 stranica za 20 minuta, sa losim netom :slight_smile:

da to ej python, to je mocna stvar. No ovisi i s koje stranice skidas, mnoge od njih imaju limite, imaju i captchu i svasta nesto… Naravno s pythonom se i to dade ispraviti, ali s ovim chrome extensijama mislim da se nista od toga nemoze.

Evo primjer s pythonom kako odradit veoma lagano

http://docs.python-guide.org/en/latest/scenarios/scrape/

nakon sto to u pythonu odradis spojis se na neku bazu npr mysql i sve tamo pohranis i onda dalje sa php-om il cim vec mislis radit samo vuces iz baze

ime
opis
kategorija
te možda URL slike jedne

Dali moze netko tko kodira s pythonom napisat koje bi biel cijene.
100,000 pages - $500
250,000 pages - $900
500,000 pages - $1250
1,000,000 pages - $1750
2,000,000 pages - $2500

Dali bi bilo ovako nesto ili vise/manje?

Sad sve ovisi dali tih 100 000 stranica ima iste html tagove po kojima u pythonu dohvacas podatke… Tipa ako uzmemomo u obzir da imaju iste html tagove samo url-ove stranice povuces odnekud file baza i prodes kroz neku petlju s time da zavrtis to sve u thredu.
Sad o cijeni ha pojma nemam ovo scrapanje je neka siva zona tako da tu svako tumaci cijene kako kome pase

Zasto je Phyton bolji or npr. PHP u screpanju?

Probao sam s PHPom izvlacit djelove HTML-a… Zivi uzas. Jednostavno PHP nema dobre librarie za to. SAd ucim python :), pa javim kak je proslo…

Mislim da u pythonu najmanje linija koda imas da napravis tu radnju inace isto je oces u php pythonu svuda je isti rezultat

Ne kodiram ni u jednom, ali python sam ucio nesto malo i nesto sam scrapnuo, i python je daleko mocniji alat od svega sto sam dosad taknuo.

Kao sto wampir kaze, par linija koda i radis cuda. A stabilnost da ne govorim.

Cisto da napomenem - moze se i sa NodeJS scrape-ati

Je li ko probao CasperJS za scrapanje?


Copyright © 2022 WM Forum - AboutContact