Jeste li znali kako google prepoznaje slova iz raznih zapisa

Izvro je uglavnom jedna povjerljiva osoba. Kaže da google sve tekstove koje želi dešifrirati ubacuje unutar reCAPTCHA …kod provjere da je korisnik prava osoba.

Onda prve osobe koje nalete na određeni tekst pušta skroz bez obzira što napišu…i tako skuplja uzorak podataka koji govore što bi to moglo biti napisano. Kako mu se dobivena informacija povećava, tako može vršiti stvarno kontrolu protiv “robota” i dobivati veći uzorak podataka za ona slova koja korisnici unose različito. U konačnici je prilično siguran što piše na datom zapisu.

Uglavnom, ja sad rješavam neku reCAPTCHU, s desne strane mi je generiran tekst, dok s lijeve strane isječak slike s nečijom kućnom adresom. Nije vrag da je to to?? Zna li tko šta o tome? I jeli ona klasična reCAPTCHA google-ova?? Evo ovdje se vidi na kakvu mislim: http://wallflux.com/facebook_id/ …hahaha, ovo sam uzeo sasvim drugi link od gornjeg o kojem pričam, i opet vidim kućnu adresu unutar reCAPTCHE…

BTW. koji pametnjaković. Idem ja refreshat reCAPTCHU i dobijem opet s adresom. Ali samo nakon jednog refresha…nakon toga sam refreshao još barem 30 puta i svaki put je bio potpuno generirani tekst…

Da. Google je kupio reCAPTCHAu 2009.

Da. reCAPTCHA služi za digitalizaciju arhive The New York Timesa i knjiga na Google Books.

Da. Kada Google uvrsti neki tekst u reCAPTCHA, Google ne zna što piše u tekstu i, naravno, pušta svakoga bez obzira što napiše.

Da. Upravo to i jeste smisao reCAPTCHAe.

Vidi što Google kaže o tome: http://www.google.com/recaptcha/digitizing

Interesting :smiley:

Zgodna mi je ta naša inklinacija da iza svega stoji nekakav veo tajne. :smile:

Koliko znam, to ide otprilike ovako:

Prvo Google odskenira papirnatu knjigu.

Odskenirana knjiga prođe kroz više različitih OCR programa.

One riječi oko kojih se OCR programi ne slažu, izrežu se iz slike i stave u reCAPTCHA.
Naprave se valovite ili ide crta preko njih tako da ih ne bi roboti čitali.

U reCAPTCHA su tako dvije riječi. Za jednu od te dvije riječi se već saznalo što znači i ona služi kao captcha i potrebno ju je ispravno pretipkati kako bi te reCAPTCHA “pustila”. Druga riječ je ona za koju nije sigurno što znači (što piše) i nju možeš i pogrešno pretipkati. Naravno, mijenja im se redoslijed tako da ne možeš znati koju od dvije riječi možeš krivo pretipkati.

reCAPTCHA svakog dana ispunjava više od 100 milijuna ljudi. Kada više od 99% velikog broja ljudi na isti način pretipka neku riječ, Google može biti siguran da su je ispravno pročitali i prepisali.

I to je to. Umjesto da plaćaju gomilu ljudi da pretipka sve knjige ikada napisane (a svaku knjigu bi trebalo pretipkati više ljudi i onda uspoređivati) - koriste besplatan rad korisnika interneta.

Oni kućni brojevi koji se pojavljuju u zadnje vrijeme, valjda su sa Street Viewa, kako bi Google mogao uvrstiti adrese i kućne brojeve na Maps.

U svemu tome nema nikakve tajne. Slogan reCAPTCHAe je “Stop Spam, Read Books”.

1 Like

Hehe, nisam najboje skužio što želiš reći. :smile:

Meni je ovo bila malo sumnjičava tema, pa sam čisto htio napomenuti da mi je to ispričala osoba od povjerenja…koja nebi pričala samo tako gluposti.

Zazvučalo mi je kao da ti je to prijeneto kao da se radi o nekoj tehnologiji iz Googleovih laboratorija koja (još) nije opće javno poznata.

1 Like

Mozda malo offtopic, no zna li netko jel postoji mogucnost da se taj layout od re-capatche customizira u pogledu oblika, boja, dimenzija i sl. buduci da na svim stranicama koji to koriste, to dosta izgleda ruzno, ogromno … i bas vizualno neatraktivno.

Istini za volju, nisam to previse istrazivao … no ako netko zna neki plugin/skripticu za re-capactha sustav koji se moze bas lijepo oblikovat i customizirat, bio bih zahvalan :smiley: