PHP - skinuti sadržaj stranice

mamba · ožujak 2014 06:36 28

Ekipa bok,
Nakon dugo vremena (još od starog foruma…) da i ja postavim koje pitanjce.

Imam problemčić sa skidanjem stranica u “plain text” (string).
Radi se o tome da koristim:
http://simplehtmldom.sourceforge.net/

I tamo je objašnjen dio toga kako koristiti DOM parser.
Prilikom korištenja dobijem “plain text”, ali sa svim sadržajem koji je na stranici, uključujući linkove, reklame, komentare, što mi ne treba.
Treba mi samo članak sa te stranice.

Primjer recimo ako uzmem stranicu:

treba mi samo:

"Vrlo neobičan asteroidVIDEO: Znanstvenici u Sunčevom sustavu otkrili nešto što nikad nisu vidjeli
Američki znanstvenici
objavili su da su prvi puta pronašli prstenove oko asteroida, što znači
da divovski plinoviti planeti našeg Sunčeva sustava poput Saturna nisu
jedini nebeska tijela s prstenovima, navodi se u studiji objavljenoj u
srijedu.

Asteroid poznat pod nazivom Chariklo udaljen je od Zemlje milijardu
kilometara i kruži oko Sunca u orbiti koja se nalazi između Saturna i
Urana, prenosi Reuters.

U lipnju 2013 astronomi su na sedam različitih lokacija u Čileu,
Argentini, Brazilu i Urugvaju teleskopima promatrali prividan prolazak
asteroida pokraj Sunca. Zahvaljujući okultaciji - astronomskom fenomenu u
kojemu se jedno svemirsko tijelo, gledajući sa Zemlje, skriva iza
drugoga - znanstvenici su mogli utvrditi veličinu i oblik asteroida.

Utvrđeno je da je asteorid promjera 248 kilometara, ali pravo
iznenađenje tek je uslijedilo kad je analizom otklona svjetlosti
otkriveno da Chariklo ima dva prstena koji ga opasavaju.

Dosad se smatralo da samo divovski plinoviti planeti Jupiter, Saturn, Uran i Neptun imaju prstenove.

Studija je objavljena u časopisu Nature.

Hina|Danas.hr
27.03.2014."

Ideje kako to napraviti? Ne mora biti ovaj parser ako netko ima bolje riješenje.

Hvala!

Macan · ožujak 2014 06:41 28

Da li bi ti odgovaralo u html kodu

Pametni · ožujak 2014 17:02 28

Sto se muciti s parsanjem stranice kada imas RSS feed http://www.net.hr/rss/. Svi portali i forumi podrzavaju RSS s kojim je neusporedivo lakse raditi nego bilo kojim html parserom.

Razmotri to kao opciju.

mamba · ožujak 2014 23:11 28

@Macan, ne. Ne bi mi odgovaralo html.

to je to, super, hvala!

@Pametni
net.hr sam naveo kao primjer. Treba mi za stranice koje nemaju rss, te daljnji rad (manipulirnje) sa plain textom u varijabli.

mamba · travanj 2014 14:16 28

Imam drugi problemčić…
Imam nekoliko stranica koje trebam pratiti, te svaka stranica ima drugačiji DIV id… ne pada mi na pamet kako bih mogao dinamički “detektirati” o kojem DIV id tagu se radi. Ima netko drugačije mišljenje?

Također, neke stranice imaju DIV sa reklamama i/ili sa vezanim člancima unutar DIVa sa člankom kojega trebam.

@Macan, na kraju ću ipak koristiti HTML, jer mi plain text nije formiran (nema cr/lf ?) …

Trebao bih ideju kako:

maknuti DIV sa reklamom (unutar članka)
“u letu” da maknem sliku iz članka ako slika u članku postoji?
maknuti javascript
maknuti html komentar-tagove (primjer: )

Hvala još jednom!

Pametni · travanj 2014 06:12 29

Sve je lako kada znas kako.
Sve tajne parsanja mozes pronaci na ovom linku

Samardzic_Bat_S · travanj 2014 23:44 29

if(!isset($element->attr[‘data-cas-tracking’]) )//group div ako postoji
{
$cena= $html->find(‘div[class=price-and-thumb-container] text’ ); //sta ti treba iz te grupe
$cena = str_replace(‘sta hoces da brices ‘,’’, $cena);
echo $cena;
}
///i tako dalje a da uradis dinamicno radi preko nizova provere elemenata…