Google køber Captcha-firma og får menneskehjælp til bogscanning

Søgegiganten har opkøbt firmaet Recaptcha, hvilket giver Google adgang til menneskelig bogstavgenkendelse i store mængder. Det skal hjælpe Google i det enorme bogscannings-projekt.

Problem: De automatiske bogstavscannere kan ikke tolke alle de krøllede bogstaver, der optræder i gamle bøger. Løsning: Få millioner af mennesker til at hjælpe, helt gratis.

Sådan har Google nok tænkt, da firmaet besluttede at opkøbe Recaptcha, som har specialiseret sig i captcha-test, altså de krøllede bogstaver, som skal forhindre automatiske botter i for eksempel at oprette e-mail-adresser og sende spam ud.

Recaptcha bruger i forvejen bidder af gamle bøger i dets captcha-test, hvilket passer perfekt til Googles udfordring med at få scannet millioner af bøger så effektivt som muligt, i projektet Google Books Library.

Nu kan Google således sende besværlige passager fra bogscanningerne over i Recaptchas test-generator. Dermed vil besøgende på de 100.000 websider, som bruger Recaptchas teknologi, fremover være med til at hjælpe Google med at få scannet bøgerne helt korrekt ind.

Google har som målsætning at indeksere al information i verden, hvilket blandt andet omfatter alle bøger, der er udgivet. Firmaet er godt i gang med at scanne alskens bøger ind, og det har ført til store slagsmål med forlag og rettighedshavere undervejs.

I øjeblikket behandler en amerikansk domstol et stort forlig til 630 millioner kroner, som skal dække alle rettigheder til at vise dele af bøgerne online.

I oktober 2008 meldte Google ud, at firmaet nu havde scannet syv millioner bøger, hvoraf én million var tilgængelige i fuld tekst.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (12)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Mads Asbjørn

Det ender med at Google ejer alle de internet tjenester man bruger i hverdagen - gad vide om det er godt eller skidt?! Generelt synes jeg rigtig godt om Google og deres innovative ideer og brugervenlige services, men de risikerer jo at hvile på laurbærrene til skade for alle os forbrugere. (Ligesom andre store firmaer har gjort/gør - ingen nævnt, ingen glemt).

  • 0
  • 0
Thomas Nielsen

...er at reCAPTCHA er beregnet til at øge genkendelsesraten i OCR. Man bruger altså tekster man gerne vil træne karaktergenkendelse på, til at blokere for karaktergenkendelse og stiller på den måde større og større krav til CAPTCHAerne. Hvor er termineringen i den rekursion?

Snildt, er det unængteligt.

  • 0
  • 0
Mathias Falkenberg

Hvis ikke reCAPTCHA ved hvad der står, hvordan kan den så finde ud af, om det man skriver er rigtigt?

Det kan den heller ikke med 100% sikkerhed.

Fidusen er så vidt jeg ved at du får vist to ord - et som allerede er verificeret af systemet og et andet der ikke er. Hvis du svarer rigtigt på det kendte antages det at du også svarer rigtigt på det ukendte... Det 'nye' ord bliver så på en eller anden måde rated mere og mere korrekt jo flere gange det har modtaget samme svar...

  • 0
  • 0
Vijay Prasad

Der findes en artikel om deres metode her http://is.gd/3po66 ("reCAPTCHA: Human-Based Character Recognition via Web Security Measures").

Ser ud til at de til verifikations delen bruger 100k ord, som for hvert request bliver forvrænget på en ny måde. De skriver selv at de mener det er "godt nok" til målet, 1/10k sandsynlighed for at gætte verifikationen, (om deres system så giver den sandsynlighed ved jeg ikke, men er også lidt skeptisk over for om deres forvrængning er god nok).

Mvh,

  • 0
  • 0
Log ind eller Opret konto for at kommentere