DOMDocument parsiranje HTML-a

Pozdrav, već 3 dana razbijam glavu s ovim pa se nadam ako netko iskusniji zna brzo rješenje problema da mi pomigne molim vas.

HTML sam pokušao parsirati sa xpath-om, sa DOM-om i sa simpleXML-om i sva 3 me zafrkavaju sa encodingom, točnije ne prikazuju čćšđž.

evo jednostavnog koda kojeg izvodim:

    $dom = new DOMDocument();
    @$dom->loadHTMLFile('lista2.html');
    $xPath = new DOMXPath($dom);
    $elements = $xPath->query('//html/body/center/table[2]/tr/td');
    foreach ($elements as $e) {
        echo $e->nodeValue.'

';
}

lista2.html si mozete skinuti ovdje

probao sam sve, od encodinga u headeru output file-a, convertanja encodinga, iconv, mb_convert_encoding, utf8_encoding, ama baš sve i neće da mi prikazuje hrvatska slova, molim pomoč ako se netko susreo sa ovim problemom

prvo sam mislio da je do loadHTMLFile funkcije, i bio je problem ali sam ga rijesio tako da sam u header lista.html ostavio sve osim meta taga za encoding i u prvu liniju ubacio <?xml version="1.0" encoding="UTF-8"?> i sada mi echo $dom->saveHTML(); izbacuje hrvatske znakove.
Problem nastaje kada pokusam doci do nodeValue na bilo koji nacin, bilo preko xpatha bilo preko domdocument funkcije getElementbynodeName, ta funkcija mi converta u ascii encoding. Platim pivu tko mi ovo riješi hvala :slight_smile:

riješio lol

echo iconv(‘UTF-8’, ‘windows-1250//TRANSLIT’, $e->nodeValue);

koliko god volim programiranje toliko ga i mrzim, 3 dana googlanja i čupanja kose za JEDNU liniju koda, aaaaaaaa :slight_smile:

Kako sam skuzio svi podaci koji prolaze kroz DOM funkcije se kovertiraju u utf-8, 2 dana mi je trebalo da to skuzim, i evo sada jos jedan dan da pronadjem kako pretvoriti utf-8 u windows-1250 znakovlje.

Ako netko ima jos nekakvih problema postajte ovdje, dosta sam istrazivao pa vam mozda budem mogao pomoci, hvala, pozdrav! idem sam sebi platiti pivo :zhuja:


Copyright © 2020 WM Forum - AboutContact - Sponsored by: Mydataknox & Webmaster.Ninja