PHP - skinuti sadržaj stranice

Ekipa bok,
Nakon dugo vremena (još od starog foruma…) da i ja postavim koje pitanjce.

Imam problemčić sa skidanjem stranica u “plain text” (string).
Radi se o tome da koristim:
http://simplehtmldom.sourceforge.net/

I tamo je objašnjen dio toga kako koristiti DOM parser.
Prilikom korištenja dobijem “plain text”, ali sa svim sadržajem koji je na stranici, uključujući linkove, reklame, komentare, što mi ne treba.
Treba mi samo članak sa te stranice.

Primjer recimo ako uzmem stranicu:

treba mi samo:

"Vrlo neobičan asteroidVIDEO: Znanstvenici u Sunčevom sustavu otkrili nešto što nikad nisu vidjeli
Američki znanstvenici
objavili su da su prvi puta pronašli prstenove oko asteroida, što znači
da divovski plinoviti planeti našeg Sunčeva sustava poput Saturna nisu
jedini nebeska tijela s prstenovima, navodi se u studiji objavljenoj u
srijedu.

Asteroid poznat pod nazivom Chariklo udaljen je od Zemlje milijardu
kilometara i kruži oko Sunca u orbiti koja se nalazi između Saturna i
Urana, prenosi Reuters.

U lipnju 2013 astronomi su na sedam različitih lokacija u Čileu,
Argentini, Brazilu i Urugvaju teleskopima promatrali prividan prolazak
asteroida pokraj Sunca. Zahvaljujući okultaciji - astronomskom fenomenu u
kojemu se jedno svemirsko tijelo, gledajući sa Zemlje, skriva iza
drugoga - znanstvenici su mogli utvrditi veličinu i oblik asteroida.

Utvrđeno je da je asteorid promjera 248 kilometara, ali pravo
iznenađenje tek je uslijedilo kad je analizom otklona svjetlosti
otkriveno da Chariklo ima dva prstena koji ga opasavaju.

Dosad se smatralo da samo divovski plinoviti planeti Jupiter, Saturn, Uran i Neptun imaju prstenove.

Studija je objavljena u časopisu Nature.

Hina|Danas.hr
27.03.2014."

Ideje kako to napraviti? Ne mora biti ovaj parser ako netko ima bolje riješenje.

Hvala! :slight_smile:

Da li bi ti odgovaralo u html kodu

Sto se muciti s parsanjem stranice kada imas RSS feed http://www.net.hr/rss/. Svi portali i forumi podrzavaju RSS s kojim je neusporedivo lakse raditi nego bilo kojim html parserom.

Razmotri to kao opciju.

@Macan, ne. Ne bi mi odgovaralo html.

to je to, super, hvala!

@Pametni
net.hr sam naveo kao primjer. Treba mi za stranice koje nemaju rss, te daljnji rad (manipulirnje) sa plain textom u varijabli.

Imam drugi problemčić…
Imam nekoliko stranica koje trebam pratiti, te svaka stranica ima drugačiji DIV id… ne pada mi na pamet kako bih mogao dinamički “detektirati” o kojem DIV id tagu se radi. Ima netko drugačije mišljenje?

Također, neke stranice imaju DIV sa reklamama i/ili sa vezanim člancima unutar DIVa sa člankom kojega trebam.

@Macan, na kraju ću ipak koristiti HTML, jer mi plain text nije formiran (nema cr/lf ?) …

Trebao bih ideju kako:

  1. maknuti DIV sa reklamom (unutar članka)
  2. “u letu” da maknem sliku iz članka ako slika u članku postoji?
  3. maknuti javascript
  4. maknuti html komentar-tagove (primjer: )

Hvala još jednom!

Sve je lako kada znas kako.
Sve tajne parsanja mozes pronaci na ovom linku

if(!isset($element->attr[‘data-cas-tracking’]) )//group div ako postoji
{
$cena= $html->find(‘div[class=price-and-thumb-container] text’ ); //sta ti treba iz te grupe
$cena = str_replace(‘sta hoces da brices ‘,’’, $cena);
echo $cena;
}
///i tako dalje a da uradis dinamicno radi preko nizova provere elemenata…