Ekipa bok,
Nakon dugo vremena (još od starog foruma…) da i ja postavim koje pitanjce.
Imam problemčić sa skidanjem stranica u “plain text” (string).
Radi se o tome da koristim:
http://simplehtmldom.sourceforge.net/
I tamo je objašnjen dio toga kako koristiti DOM parser.
Prilikom korištenja dobijem “plain text”, ali sa svim sadržajem koji je na stranici, uključujući linkove, reklame, komentare, što mi ne treba.
Treba mi samo članak sa te stranice.
Primjer recimo ako uzmem stranicu:
treba mi samo:
"Vrlo neobičan asteroidVIDEO: Znanstvenici u Sunčevom sustavu otkrili nešto što nikad nisu vidjeli
Američki znanstvenici
objavili su da su prvi puta pronašli prstenove oko asteroida, što znači
da divovski plinoviti planeti našeg Sunčeva sustava poput Saturna nisu
jedini nebeska tijela s prstenovima, navodi se u studiji objavljenoj u
srijedu.
Asteroid poznat pod nazivom Chariklo udaljen je od Zemlje milijardu
kilometara i kruži oko Sunca u orbiti koja se nalazi između Saturna i
Urana, prenosi Reuters.
U lipnju 2013 astronomi su na sedam različitih lokacija u Čileu,
Argentini, Brazilu i Urugvaju teleskopima promatrali prividan prolazak
asteroida pokraj Sunca. Zahvaljujući okultaciji - astronomskom fenomenu u
kojemu se jedno svemirsko tijelo, gledajući sa Zemlje, skriva iza
drugoga - znanstvenici su mogli utvrditi veličinu i oblik asteroida.
Utvrđeno je da je asteorid promjera 248 kilometara, ali pravo
iznenađenje tek je uslijedilo kad je analizom otklona svjetlosti
otkriveno da Chariklo ima dva prstena koji ga opasavaju.
Dosad se smatralo da samo divovski plinoviti planeti Jupiter, Saturn, Uran i Neptun imaju prstenove.
Studija je objavljena u časopisu Nature.
Hina|Danas.hr
27.03.2014."
Ideje kako to napraviti? Ne mora biti ovaj parser ako netko ima bolje riješenje.
Hvala!