Gå til hovedindhold
Version2 it for professionelle
Forsiden

Hovedmenu

  • It-nyheder
  • Blogs
  • It-job
  • It-firmaer
  • Whitepapers
  • Opret bruger
  • Log ind
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?
Se kommentarer (4)
Emner

Facebook-brugere tyder bogstaver trykt med falmet blæk

De Captchas, som millioner af brugere hver dag tyder for at logge sig på internettjenester, udnyttes til at tyde de ord i falmede bøger og aviser, som softwaren giver op over for. Brugerne er oppe på fire millioner ord om dagen, og tempoet stiger konstant.

Af Fredag, 19. september 2008 - 7:13

De ved det ikke selv, men millioner af computerbrugere er dagligt en uundværlig hjælp i digitaliseringen af enorme mængder af gamle bøger og aviser. Det sker, når logger sig ind på 40.000 hjemmesider, mellem dem Facebook og det amerikanske Ticketmaster.

Her møder man undertiden et felt med en række forvrængede bogstaver, en Captcha, som skal sikre hjemmesiden mod computerstyrede hacker- og spam­angreb. Det er vanskeligt at udvikle programmer, som kan afkode de særlige bogstaver, og derfor giver det en ekstra sikkerhed, at tegnene skal tastes ind.

Captcha blev udviklet i 2000 af Luis von Ahn, prisbelønnet it-forsker og lektor ved Carnegie Mellon University i Pittsburgh i USA, og det er også ham, der har bragt teknikken videre - nu som 'reCaptcha'.

Med reCaptcha kan virksomheder og myndigheder udnytte Captcha-systemet til digitalisering af deres gamle arkiver.

Mennesket klarer falmet blæk

Langt det meste digitalisering klares med Optical Character Recognition, software til at genkende bogstaver og andre karakterer, når de er scannet ind. Men udtværet og falmet blæk gør det umuligt for computeren at afkode enkelte bogstaver, som det derfor var oplagt at sende videre til Captcha, tænkte Luis von Ahn, der stiller reCaptcha gratis til rådighed.

Derfor oplever brugerne i dag af og til, at de skal indtaste ikke bare et, men to ord i Captcha-systemet. Det ene ord er der af hensyn til sikkerheden, mens det andet vil stamme fra en gammel bog, som har voldt computeren problemer.

Ifølge Luis von Ahn har flere end 600 millioner brugere i løbet af reCaptchas første år afkodet godt 440 millioner ord, svarende til 17.600 bøger, og i dag er tallet steget til mere end fire millioner ord om dagen. Da det samme ord sendes til flere brugere, har reCaptcha samtidig en præcision meget tæt på 100 procent.

»Det kræver mere end 1.500 mennesker, som ugentligt arbejder 40 timer og oversætter 60 ord i minuttet, hvis man skal matche vores output,« har Luis von Ahn sagt til videnskabsportalen Eurekalert.

Digitaliserer New York Times

ReCaptcha benyttes blandt andet af hjemmesiden The Internet Archive, et nonprofit-arkiv over bøger, film- og lydoptagelser, samt af New York Times, hvor man hver måned digitaliserer to års avisudgivelser. Takket være reCaptcha stiger tempoet konstant, så man næste år forventer at have digitaliseret de resterende 70 års arkiver.

Også Det Kongelige Bibliotek arbejder med manuel korrektur af scannede tekster, men i et mindre omfang, forklarer Britta Lorckmann, sektionsleder for bibliotekets digitale udvikling.

»Vi samarbejder med en gruppe personer, der står for den manuelle korrektur, hvilket har været tilstrækkeligt, da vores digitalisering stadig har et forholdsvis lille omfang. Det er klart, at i takt med en stigende digitalisering kan et system som reCaptcha eller lignende blive aktuelt, men det vil kræve helt nye samarbejdspartnere,« siger hun.

Captcha står for Completely Automated Public Turing test to tell Computers and Humans Apart, altså en fuldstændig automatiseret test til at skelne mellem computere og mennesker. Systemet er opkaldt efter matematikeren Alan M. Turing, der udviklede principperne for gennem fjernkommunikation at afgøre, om en aktør var et menneske eller en computer.

Send Tweet
Udskriv

Kommentarer (4)

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Peter Nørregaards billede
Peter Nørregaard 19. sep. 2008 - 08.03
 
Et spændende perspektiv

Sidste år læste jeg om Anh i Wired og om hans ide, som åbenbart nu er blevet til et produkt. Det fascinerende er hans brug af den menneskelige hjerne til at løse små-opgaver og at han vendt arbejdsfordelingen på hovedet, så det er computere der bestemmer hvad der skal løses og mennesker der så løser opgaven.

Han har også nogle andre interessante projekter på bedding: http://www.wired.com/techbiz/it/magazine/15-07/ff_humancomp

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Thomas Brodersen 19. sep. 2008 - 10.05
 
Kreativt!

Og det demonstrerer at har man adgang til et par millioner mennesker, så har man en fantastisk parallel computer, hvis bare man kan få sat det i system.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Thomas Dybdahl Ahle 19. sep. 2008 - 17.22
 
Problematisk

Forhåbenlig bliver ordene lige dobbelt checket - alstå sendt til mere end én person - for når computeren ikke kender det rigtige svar, kan man jo nemt forestille sig en masse ævl man får ud.

Man kan også forestille sig crackerprogrammer, der prøver at komme ind på facebook, og svarer "forkert" på det samme ord, på den samme måde, 1000 gange. Så vil den forkerte læsning jo blive accepteret i bogen..

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Søren Løvborg 19. sep. 2008 - 18.59
 
Re: Problematisk

En reCaptcha består altid af to ord.
Det ene er kendt af reCaptcha i forvejen, og bruges til at kontrollere at det er et menneske, der sidder ved computeren. Det andet er ukendt, og bliver dermed identificeret af brugeren.

Dermed er det nok at svare korrekt på det første ord i en reCaptcha (prøv selv).

Før et ukendt ord får status som kendt, checkes det af flere forskellige brugere, der alle skal svare det samme, så vrøvl ikke accepteres.

Når en bruger først en gang har svaret forkert på det første ord (fx fordi brugeren i virkeligheden er en computer, der forsøger OCR), består de efterfølgende captchas af TO kendte ord, der begge skal identificeres korrekt før brugeren accepteres som menneske.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer

Tilføj kommentar

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Log ind herunder eller opret en bruger for at skrive kommentarer
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?

Seneste nyt

Yahoos nye browser får uheldig start - lækker eget sikkerhedscertifikat

Udgivet 24. maj 14.52Opdateret 24. maj 14.53

Danske internetudbydere nægter at blokere 12 pokersites

Udgivet 24. maj 13.58Opdateret 24. maj 13.58

Dokumentation: Her er Spillemyndighedens krav - og 12 ulovlige pokersider

Udgivet 24. maj 13.58Opdateret 24. maj 13.58

Ny blog: Offentlige it-projekter set indefra

Udgivet 24. maj 13.19Opdateret 24. maj 13.30

De 170 fyrede hos IBM Danmark får 30.000 kroner i hånden

Udgivet 24. maj 12.19Opdateret 24. maj 12.19

Flere it-nyheder »

Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Whitepapers

Om eBinder

eBinder ApS

Kick-start your master data management initiative

Affecto Denmark

Affecto Data Quality Assessment: Er din indsigt og beslutning baseret på validt data?

Affecto Denmark

Framework til datamigrering i SAP miljøer - spar op til 50% på dine Data Migration udgifter

Affecto Denmark

Få et Data Warehouse (DW) review hos Affecto

Affecto Denmark
  • Flere whitepapers

Seneste debat

  1. Danske internetudbydere nægter at blokere 12 pokersites

    1 comment.
    Last update 41 sekunder
    Skrevet af Kasper Pedersen
  2. ESA arbejder på interplanetarisk internet

    5 comments.
    Last update 1 minut 5 sekunder
    Skrevet af Jarle Knudsen
  3. Jysk hospital bygger eget socialt netværk på Drupal

    2 comments.
    Last update 5 minutter 52 sekunder
    Skrevet af Lars K. Hansen
  4. Oracle tabte, vandt Google Java ?

    14 comments.
    Last update 11 minutter 11 sekunder
    Skrevet af Martin Bøgelund
  5. Dokumentation: Her er Spillemyndighedens krav - og 12 ulovlige pokersider

    2 comments.
    Last update 13 minutter 24 sekunder
    Skrevet af Johnnie Hougaard Nielsen
  6. Fokus på ny model når kravspecifikationen skal vurderes

    1 comment.
    Last update 30 minutter 27 sekunder
    Skrevet af Christian Kirkedal
  7. Kynisk it-guru: »Internettet er basalt set noget lort«

    6 comments.
    Last update 37 minutter 23 sekunder
    Skrevet af Nikolaj Brinch Jørgensen
  8. Meego-afløseren Tizen klar til at tage kampen op med Android

    9 comments.
    Last update 52 minutter 18 sekunder
    Skrevet af Dennis Krøger

Mere debat »

Information

  • Kontakt redaktionen
  • Job- og annoncesalg
  • Teknisk support
  • Om Version2
  • Brugerbetingelser
  • Privatlivspolitik

Aktuelle emner

  • Agil udvikling
  • Android
  • Bruttolønsordning
  • Business Intelligence
  • Cloud computing
  • Download Windows 8
  • HTML5
  • Harddisk-priser
  • IE9
  • Intranet
  • It-sikkerhed
  • Kindle Fire
  • Multimedieskat
  • NemID
  • OS X Mountain Lion
  • Open source CMS
  • Projektledelse
  • Scrum
  • Sharepoint intranet
  • Storage
  • Ubuntu 11.10
  • Virtualisering
  • Windows 8
  • Windows Phone 7
  • iOS 5
  • iPhone 4S

Tjenester

  • Android-app
  • iPhone-app
  • RSS-feeds
Følg @version2dk
Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Version2 udgives af

  • Mediehuset Ingeniøren A/S work Skelbækgade 4 1717 København V
  • Tlf. work 33265300