Izvlacenje podataka iz html-a

Pozdrav zanima me dali ima neka skripta (php ili neka druga) koja bi izvlacila podatke iz "page source"
npr. na sljedecem linku između linije koda 188 i 214 su podaci tvrtke i tako na svakoj stranici i sad kako bi ja te podatke izvadio, nije problem klikniti na svaku tvrtku a da se samo jednim klikom exportaju potrebni podaci.
Ako nema takva skripta dali netko zna kako se zove takva operacija zove da mogu izguglati.
Unaprijed hvala!!!

Teorija u PHP-u:
1.) Uzimanje source koda sa url-a putem cUrl-a
2.) dobiveni source ubaciti u varijablu (ajmo je nazvat $source)
3.) proć kroz $source i pronać određeni podatak ili grupu podataka sa preg_match i postavljanje pronađenih podataka u zadane varijable ili u polje (array)

I to je to.
Nema puno muke, jelda? :slight_smile:

1 Like

http://simplehtmldom.sourceforge.net/ - najbolje ce ti ovaj php skripta koristiti…

1 Like

A jel se može cUrl kako koristiti lokalno sa XAMP-a ?

Može. Moraš ga uključiti, ukoliko po defaultu nije. (koristim Wamp i po defaultu je isključen)

1 Like

Neznam jesi li primjetio, ali stranica ima i print verziju, iz nje ćeš koliko sam na brzinu pregledao lakše izvući podatke
primjer: http://www.tvrtke.com/3-m-east-ag-podruznica-rh,PID-10,MF-4055.aspx

Evo komadić koda ovako iz glave, ne garantiram da radi:

<?php
$content = file_get_contents("http://www.tvrtke.com/3-m-east-ag-podruznica-rh,PID-10,MF-4055.aspx"); 

preg_match('/<div class="lLeft">Adresa:<\/div><div class="lRight">(.*?)<\/div>/s',$content,$adresa);

print_r($adresa);
1 Like

nemoj koristit regular expressionse da parsas html… nije pametna ideja

Radi skripta ali izbacuje samo adresu

evo malo sam modificirao nastavio niz i radi

 <?php
    $content = file_get_contents("http://www.tvrtke.com/3-m-east-ag-podruznica-rh,PID-10,MF-4055.aspx"); 
    preg_match('/<div class="lLeft">Adresa:<\/div><div class="lRight">(.*?)<\/div>/s',$content,$adresa);
    preg_match('/<div class="lLeft">Kvart:<\/div><div class="lRight">(.*?)<\/div>/s',$content,$kvart);
    preg_match('/<div class="lLeft">Telefon:<\/div><div class="lRight">(.*?)<\/div>/s',$content,$telefon);
    preg_match('/<div class="lLeft">Fax:<\/div><div class="lRight">(.*?)<\/div>/s',$content,$fax);
    preg_match('/<div class="lLeft">OIB:<\/div><div class="lRight">(.*?)<\/div>/s',$content,$oib);
    
    print_r($adresa); 
    print_r($kvart);  
    print_r($telefon); 
    print_r($fax); 
    print_r($oib); 

Ovaj jos nisam probao kad testiram javim kako radi
svejedno hvala!!