Tražim izradu algoritma, procjena cijene

snisson · prosinac 2014 23:35 13

Slazem se sa leffe. Provrteo sam malo tu grupu i nije jako problematičan algoritam. Veći problem je baza reči, ali i ona se vremenom napuni i poveća tačnost. Princip je da u stringu prepoznaš par elemenata (polazište, odredište i vezne reči između ako ih ima, kako bi odredio da li su u pravilnom redosledu). Malo su problem vremenske odrednice tipa “sutra” i “u nedelju” ali se i te stvari mogu računati relativno u odnosu na datum objave.

bozoou · prosinac 2014 10:40 14

Bojim se ja da s ovakvim zaključcima govorite da niste ni malo svjesni prave težine problema.

“Nedjelja” je riječ, koju nije teško niti pronaći…a još lakše staviti u relaciju sa datumom objave posta.
No što ta nedjelja stvarno predstavlja u oglasu određuje hrpetina drugih riječi.
Može biti: “U nedjelju mi se pas pokenjao u auto” …a može biti “U nedjelju ću znati jel krećem u utorak ili srijedu”.

To je problematika, a neka vaša razmišljanja pokazuju da niste baš svjesni te prave problematike.

snisson · prosinac 2014 10:59 14

Ako pogledaš oglase, većinom su standardizovani i mogli bi se svesti na patterne. Oglas bi se mogao smatrati ispravno protumačenim samo ako izvučemo sve elemente. Oglas tipa “U nedjelju mi se pas pokenjao u auto” nema polaznu i odredišnu tačku, pa se ne bi mogao smatrati ispravnim. Čovek ne traži 100% uspeh, ali be se određeni uspeh od 60-80% mogao postići.

Problematika je jednostavnija od recimo prepoznavanja lica na fotografijama, a to je opet već urađeno

bozoou · prosinac 2014 11:29 14

Ja naravno ne tvrdim da je nemoguće, ali govorim da se vi fokusirate na jednostavne probleme…a ne vidite nekako pravu težinu.

I ako netko napiše "“U nedjelju mi se pas pokenjao u auto, zato krećemo u ponedjeljak ili utorak zg-os.” …to je i tekako validan oglas. Jer ima sve potrebne elemente samo i višak toga pored osnovnih elemenata.
Ali valjda 80% oglasa ima suvišnih elemenata, tak da se algoritam ne može orijentirati samo na “jednostavne i sažeto napisane oglase”.

I nisam napisao da tražim 100% uspijeh, nego 90%. Nije čak problem ni sa 80% uspjeha. Ali zato jedan drugi postotak mora biti na nekih 97-98%. Ajmo tih 97% nazvati postotak točnosti.
A to je da algoritam sa 97% sigurnošću zna da je sve točno prepoznao.
Da pojasnim.
Ako algoritam recimo nije skužio datum putovanja jer ga ništa u tekstu nije asociralo na datum, on će reći da ne može naći datum. Ako u jednom od deset oglasa ne može naći datum, on je uspješan 90%. (samo s datumom)

No od tih 9 oglasa gdje je pronašao datum, on mora biti 97% siguran da je zaista pronašao datum za kojeg zna što predstavlja taj datum…a ne da je zabrijao da je pronašao datum i da pogađa što bi taj datum mogao biti.
Znači, kad se algoritam odluči zaključiti o nekom pronalasku, zaključak ne smije biti pogađanje. Ako imalo sumnja u pronalazak, taj pronalazak se ne može računati kao pronalazak.
Tako sumnja u pronalazak ruši dolje postotak uspješnosti, ali zato podiže postotak točnosti.

snisson · prosinac 2014 12:05 14

Prvi korak, da bi se uopšte počelo, ti je prikupiti bar 2000-3000 objava u jednu bazu. Onda te objave treba grupisati. Nakon toga pristupaš rešavanju problema. Kada imaš tako grupisane objave, lako ćeš doći do % uspešnosti.

Ne kažem da nema sumanutih konstrukcija, ali većinom su oglasi standardni. Kada sistematizuješ, videćeš da sam u pravu. Za početak se ja uopšte ne bih fokusirao na nebuloze, već na normalne objave, nebuloze bi se iskristalisale vremenom.

bozoou · prosinac 2014 12:51 14

Točno tako, ali ja sam ovaj proces već napravio…tj. konstantno se radi zadnjih godinu dana. Tako da znam što pričam kad kažem da se niste ni fokusirali na prave probleme…a istakli ste lako rješive.

d1namic · prosinac 2014 13:12 14

Neznam da li si vidio, ali autohop.hr radi dobro na marketingu, te oglasnik prijevoza postaje polako zaboravljen. Mislim da ukoliko želiš i dalje raditi na oglasniku prijevoza da moraš uložiti u marketing, jer već sada svi koji spominju podjelu prijevoza pričaju o autohop, a oglasnik prijevoza nitko ne spominje…

in4hr · prosinac 2014 13:32 14

Barem u ovom segmentu nemoguce je rjesiti algoritam koji ce raditi sa XX postokom tocnosti u nedogled. Svaki oglas je specifican i sastoji se od bezbroj ljudskih gluposti. Tako primjerice na kratke staze tipa mjesec dana algoritam moze raditi sa 50% tocnosti a na period od 2 godine sa 20% tocnosti. Mislim da je ova cijela rasprava pointless. Radje zaposli 2 studosa da nagledaju FB, kucaju u aplikaciju i amen. To nece nikad raditi 100% a ni 80% ispravno ako se radi o automatizmu … a i cak onda s tim postotkom ce netko trebati korigirati, pa zasto onda trositi zivce, pare i vrijeme kada se cijeli problem moze rjesiti putem rucnog unosa par studenata. Vjeruj mi proci ces jeftinije i brze

stipic0 · prosinac 2014 14:13 14

Ti tražiš umjetnu inteligenciju, moja procjena je za takav algoritam (novčano) - iznosila €XXX,XXX (ako ne i više) jer stvar je zašto toliko vrijedi, ja kada bi imao takav algoritam žalosno bi bilo webom se baviti, auto industrija, robotika, pametne kuće (attiny2313), arduino (kada imaš jedan takav lako se dalje može nadovezati da ući i druge stvari)… Taj algoritam bi vratio uloženo u jako kratkom roku…

leffe · prosinac 2014 14:44 14

Ja ne znan koliko vas su programeri i imaju ideju kako ovo uopce rijesit. Nije ovo algoritam koji trazi neku posebnu umjetnu inteligenciju. (Iako se u potpunosti slazem sa in4hr da je puno lakse i potencijalno jeftinije imat studosa da popunjava oglase).
Bozoou, ako vec nemas rjesenje u glavi (programsko, ne odokativno), onda nemas pojma koji je “pravi” problem. Ne, razlicite konstrukcije nisu nikakav problem. Rjesenje koje ja iman u glavi se oslanja na stvaranje baze templatea.
Ovako bi ja pristupio problemu (cijenu i broj slobodnih mista je lako dodat):

tablica kljucnih rijeci (iz, za, prema, idemo, trazim, vozim, itd itd)
tablica odredista (ukljucujuci sve kratice, tipfelere itd)
tablica formata vremena (datuma)
tablica templatea
(potencijalno je potrebna i dodatna tablica kracih nazovimo fraza - odnosno konteksta oko bitnih kljucnih rijeci. ovo bi sigurno povecalo tocnost interpretacije).

Input se prvo normalizira, (ie, “VŽ” se pretvara u varaždin, “danas” se pretvara u danasnji datum itd, narijecja se pretvaraju u knjizevne rijeci ukoliko ih znamo prepoznat itd.)
Prepoznate rijeci (iz svih tablica) se vade i mijenjaju placeholderima, a visak oko konteksta se brise (ie, nepotrebni dodatak oglasu koji nas ne zanima, recimo nekoliko rijeci od zadnje prepoznate kljucne rijeci).
Takav novonastali template se validira prema vec postojecim templateima u bazi. Ako imamo hit, onda sa prakticki 100% sigurnoscu mozemo rec da znamo tocno sta oglasivac pise.
Ako ne nađemo hit, aplikaciji treba feedback - ili je oglas spam, ili je oglas validan i nama je upravo stvorio novi template.

S vremenom ce se svakakva glupost moc normalizirat i pospremit u template. Ne mora se aplikaciju naucit razmisljat gramaticki, niti interpretirat interpunkcije. Racunala su glupa, ali imaju pristup gigantskoj memoriji - bazi. Sto veca baza inputa, to veca mogucnost pravilne interpretacije.

mestro67 · prosinac 2014 14:46 14

umjetnu inteligenciju

Teoretski b se to vrlo lako moglo riješiti jer nema puno kombinacija.

Osnova sve ga je da većina oglasa u sebi ima ono glavno a to je nudim prijevoz [grad] ili vozim za [grad] i tražim prijevoz za [grad]

A to da li piše zg ili zagreb tebi ne igra ulogu. Jer ti svakako sam kreiraš oglas po dobivenim rezultatima.

Ako već postoje aplikacije koje same pišu vremensku prognozu ili tekstove za sportske novosti ne vidim neki problem u ovome.

p.s.

Dogovoriš s vlasnikom grupe da napravi šablonu tipa:

Tražim ili nudim:
Vrijeme:
Grad:
Broj osoba:
Cijena:
sl.:

I neka se toga drži većina korisnika kad objavljuje oglas na FB-u.

creatifcode · prosinac 2014 15:11 14

@bozoou ono sto ti trebasa je big data analytics. U cijelu pricu se nebih stel mesat, jer je za ovakvu pricu ovo mjesto jednostavno nespremno imas 5 ljudi koji nesto konkretnije znaju, a oni se nazalsot vec dugoooooooooooooooo vremena ne javljaju. Nazalost kada bi se oni javili i rekli svoje mislim da bi vecina klinaca koji ovdje kupuju i prodaju FB stranice i sl. svinjarije poskakalo sa stolica jer cifre ti se uopce nebi svidile. Imam neke svoje pretpostavke koliko bi to moglo kostati, ali necu o tome ovdje.

Inace @in4hr i @leffe dobro zbore svatko na svoj nacin. Iako mislim da je @leffe to malo neozbiljno shvatio. Cisto sumnjam da imas toliko para da bi razvoj jednog takvog algoritma platio. Ako vec imas para onda si pogledaj providere koji ti nude rjesenja u vidu Big Data Search i Analyticsa pa se s njima posavjetuj kako i sta.

leffe · prosinac 2014 15:21 14

Smijesno mi je ovakvo podcijenjivanje. Pa meni je u opisu svakodnevnog posla big data rudarenje u svrhu marketinga. Ovo je nemjerljivo laksi posao, jer vrijeme uopce nije krucijalna stavka. Interpretacija oglasa ne mora biti gotova u milisekundama, sta ti dozvoljava string selecte po Mongu s kolekcijama od milijun-dva-tri dokumenata. Po cemu je tocno neozbiljno moje rjesenje?

bozoou · prosinac 2014 15:22 14

Ja samo želim da netko kaže cifru
Koliko su to velike cifre.
Netrebamo procjenu točno u kunu, samo da definiramo koliko nula ima u tim ciframa

bozoou · prosinac 2014 15:24 14

@leffe …
Po meni ne kontaš baš težinu problema. Riječi “vozim” koriste i vozači i putnici. I mnoge druge riječi koriste vozači i putnici. A strukturu rečenice nije samo tako lako raspisati po bazi podataka.

leffe · prosinac 2014 15:36 14

@bozoou moran priznat da prvi put vidim narucitelja bilo cega koji mestru govori da ne konta kako triba radit svoj posa. Ti ne znas kako stvar isprogramirat. Ocito je i da ne znas cemu sluzi baza podataka. “Strukturu recenice nije samo tako lako raspisati po bazi podataka”? Sto to uopce znaci? Sve sta smo napisali u ovom threadu je u bazi podataka. Tolstoja stavis tamo bez problema, pobrojis sve veznike u romanu, i sve tocke zamijenis sa ascii reprezentacijom nadrogiranog klauna. O cemu mi pricamo ovde?
Uglavnom, sretno s projektom.

bozoou · prosinac 2014 15:41 14

Ničeg se ja ne bojim

Ali mi je fora kad napišeš u google: oglasnik …on ti već sugerira OP
.a kad napišeš autoho… ne dobiješ sugestiju na autohop.

Stanje na terenu je mnogo drugačije nego to izgleda izvana. Mi imamo realan trafic kojim se niti ne hvalimo, a autohop laže da ima 200.000 korisnika i ima svega nekoliko oglasa…što od toga i dosta fake oglasa.

Nastave li tako, očekujem da će ih izjesti taj njihov jaki marketing do točke zvan bankrot. Jedino ako uber imaju para. …a ni tad im lova neće moći sva vrata otvorit.

A OP izgleda samo da miruje…ali radi se punom parom i bit će veliki “boom” novih stvari, neviđenih u niti jednom carpooling servisu. Među tim stvarima i ovaj parser koji će povezivati oglase od svukud na jednom mjestu, kategorizirane po ključnim elementima.

Što još reći…izrazito uživam u ovom procesu, pa sve da nakraju i izvisimo. Sreća je ionako pustolovina, ne destinacija
…i također, sa svojim komentarom si debelo offtopic ove teme

bozoou · prosinac 2014 15:42 14

Maestro, tko ti je rekao da ja to neznam isprogramirati?? Ja to već jesam isprogramirao

…s točnošću od 98-99% i unčikovitosti oko 80%. Na uštrb točnosti, unčikovitost može biti i puno veća s trenutnim rješenjem.

leffe · prosinac 2014 15:49 14

Tvoje izjave mi govore da ne znas programirat. Izgleda da zelis cut da je to nemoguce odradit. A nije.
Od programera bi ocekiva da ga predlozeno rjesenje zaintigrira, i da nađe konkretne probleme. A ne da izjavi potpunu nebulozu da se nesto ne moze stavit u bazu. Cili internet je u bazi podataka.

dmitrecic · prosinac 2014 15:59 14

Radio sam nešto slično (online test za vježbe za državnu maturu), i moguće je to napraviti.
I dobro se sjećam da je najveći problem bio složiti logički dio kod provjere točnosti odgovora kojeg korisnik ručno unosi (primjerice, točan odgovor može biti i “nije u razredu” i “van razreda” i “u hodniku škole”, pritom se ne vodeći zadanim točnim odgovorima, nego logikom).
U cijeloj priči najbitnije (i najproblematičnije) je složiti taj logički dio algoritma (prepoznavanje da li nudi ili traži, te cilj, odnosno destinaciju) i složiti pojmove koji tvore standardni oglas.

Da li je Vž, vž, vŽ, vz ili Vz ili Varaždin je najlakši dio za prepoznavanje (u biti to uopće nije problem).
Moja slobodna procjena za koliko bih ti ja to napravio bilo bi (pucam sad pod pretpostavkom da treba te podatke spremati u bazu podataka, i da imaš control panel u kojeg unosiš i uređuješ pojmove koje treba uzeti u obzir, i u kojem se nalazi dodatna stranica sa pregledom kako je koji oglas rasčlanio (zbog analize ispravnosti i korekcije “logike”)) između 6.000 i 12.000 kuna, te oko mjesec dana posla.

Kad neće nitko, evo ja ti dajem prvu okvirnu ponudu.

(skidanje podataka sa drugih stranica i prebacivanje u bazu podataka i slika sa drugog site-a radio sam prije par godina ovdje jednom članu za njegov site sa printerima, taj dio nije problematičan)