Facebook-brugere tyder bogstaver trykt med falmet blæk
De ved det ikke selv, men millioner af computerbrugere er dagligt en uundværlig hjælp i digitaliseringen af enorme mængder af gamle bøger og aviser. Det sker, når logger sig ind på 40.000 hjemmesider, mellem dem Facebook og det amerikanske Ticketmaster.
Her møder man undertiden et felt med en række forvrængede bogstaver, en Captcha, som skal sikre hjemmesiden mod computerstyrede hacker- og spamangreb. Det er vanskeligt at udvikle programmer, som kan afkode de særlige bogstaver, og derfor giver det en ekstra sikkerhed, at tegnene skal tastes ind.
Captcha blev udviklet i 2000 af Luis von Ahn, prisbelønnet it-forsker og lektor ved Carnegie Mellon University i Pittsburgh i USA, og det er også ham, der har bragt teknikken videre - nu som 'reCaptcha'.
Med reCaptcha kan virksomheder og myndigheder udnytte Captcha-systemet til digitalisering af deres gamle arkiver.
Mennesket klarer falmet blæk
Langt det meste digitalisering klares med Optical Character Recognition, software til at genkende bogstaver og andre karakterer, når de er scannet ind. Men udtværet og falmet blæk gør det umuligt for computeren at afkode enkelte bogstaver, som det derfor var oplagt at sende videre til Captcha, tænkte Luis von Ahn, der stiller reCaptcha gratis til rådighed.
Derfor oplever brugerne i dag af og til, at de skal indtaste ikke bare et, men to ord i Captcha-systemet. Det ene ord er der af hensyn til sikkerheden, mens det andet vil stamme fra en gammel bog, som har voldt computeren problemer.
Ifølge Luis von Ahn har flere end 600 millioner brugere i løbet af reCaptchas første år afkodet godt 440 millioner ord, svarende til 17.600 bøger, og i dag er tallet steget til mere end fire millioner ord om dagen. Da det samme ord sendes til flere brugere, har reCaptcha samtidig en præcision meget tæt på 100 procent.
»Det kræver mere end 1.500 mennesker, som ugentligt arbejder 40 timer og oversætter 60 ord i minuttet, hvis man skal matche vores output,« har Luis von Ahn sagt til videnskabsportalen Eurekalert.
Digitaliserer New York Times
ReCaptcha benyttes blandt andet af hjemmesiden The Internet Archive, et nonprofit-arkiv over bøger, film- og lydoptagelser, samt af New York Times, hvor man hver måned digitaliserer to års avisudgivelser. Takket være reCaptcha stiger tempoet konstant, så man næste år forventer at have digitaliseret de resterende 70 års arkiver.
Også Det Kongelige Bibliotek arbejder med manuel korrektur af scannede tekster, men i et mindre omfang, forklarer Britta Lorckmann, sektionsleder for bibliotekets digitale udvikling.
»Vi samarbejder med en gruppe personer, der står for den manuelle korrektur, hvilket har været tilstrækkeligt, da vores digitalisering stadig har et forholdsvis lille omfang. Det er klart, at i takt med en stigende digitalisering kan et system som reCaptcha eller lignende blive aktuelt, men det vil kræve helt nye samarbejdspartnere,« siger hun.
Captcha står for Completely Automated Public Turing test to tell Computers and Humans Apart, altså en fuldstændig automatiseret test til at skelne mellem computere og mennesker. Systemet er opkaldt efter matematikeren Alan M. Turing, der udviklede principperne for gennem fjernkommunikation at afgøre, om en aktør var et menneske eller en computer.
Kommentarer (4)
Sidste år læste jeg om Anh i Wired og om hans ide, som åbenbart nu er blevet til et produkt. Det fascinerende er hans brug af den menneskelige hjerne til at løse små-opgaver og at han vendt arbejdsfordelingen på hovedet, så det er computere der bestemmer hvad der skal løses og mennesker der så løser opgaven.
Han har også nogle andre interessante projekter på bedding: http://www.wired.com/techbiz/it/magazine/15-07/ff_humancomp
Og det demonstrerer at har man adgang til et par millioner mennesker, så har man en fantastisk parallel computer, hvis bare man kan få sat det i system.
Forhåbenlig bliver ordene lige dobbelt checket - alstå sendt til mere end én person - for når computeren ikke kender det rigtige svar, kan man jo nemt forestille sig en masse ævl man får ud.
Man kan også forestille sig crackerprogrammer, der prøver at komme ind på facebook, og svarer "forkert" på det samme ord, på den samme måde, 1000 gange. Så vil den forkerte læsning jo blive accepteret i bogen..
En reCaptcha består altid af to ord.
Det ene er kendt af reCaptcha i forvejen, og bruges til at kontrollere at det er et menneske, der sidder ved computeren. Det andet er ukendt, og bliver dermed identificeret af brugeren.
Dermed er det nok at svare korrekt på det første ord i en reCaptcha (prøv selv).
Før et ukendt ord får status som kendt, checkes det af flere forskellige brugere, der alle skal svare det samme, så vrøvl ikke accepteres.
Når en bruger først en gang har svaret forkert på det første ord (fx fordi brugeren i virkeligheden er en computer, der forsøger OCR), består de efterfølgende captchas af TO kendte ord, der begge skal identificeres korrekt før brugeren accepteres som menneske.

