Maskinlæring er en forlængelse af hjernen

Store datamængder, hurtigere computere og bedre algoritmer har gjort tiden moden til at tage maskin­læring i brug i praksis.

Lige siden computerens barndom har vi forsøgt at skabe kunstig intelligens. Begrebet og teorierne bag har rødder tilbage til de første programmeringssprog og moderne computere i tiden omkring Anden Verdenskrig.

Vi har forsøgt at skabe softwarealgoritmer, som efterligner vores egen hjernes måde at lære på, men det er først inden for de seneste år, at vi for alvor har set potentialet i såkaldt maskinlæring – og begrænsningerne.

Computere er gode til at gøre lige præcis dét, vi beder dem om, når vi programmerer dem. De gør det på samme måde igen og igen, lynhurtigt. Men mennesket har indtil for nylig været bedre til opgaver, hvor løsningen ikke har en enkel opskrift, som eksempelvis at se, om et dyr på et foto er en hund eller en ged.

I dag er ansigtsgenkendelse ved hjælp af maskinlæring blevet en næsten triviel funktion hos Facebook og Google, men det er ikke tilfældigt, at det er lige netop nu, vi ser teknologien blive anvendt.

»Maskinlæringsområdet har udviklet sig. Algoritmerne er blevet bedre, og vores teoretiske forståelse er blevet bedre. Og så har vi fået mere data og mere computerkraft. For eksempel skal du, for at oplære et stort neuralt netværk, bruge meget data, ellers får du ikke særligt gode resultater, når du fodrer det med noget, netværket ikke har set før,« forklarer professor Christian Igel fra Datalogisk Institut ved Københavns Universitet (DIKU).

Et såkaldt dybt neuralt netværk er inspireret af én af modellerne for, hvordan mennesker lærer, og består af flere lag af forbundne ‘neuroner’. For at hamle op med menneskehjernens milliarder af neuroner skal det kunstige neurale netværk bruge masser af regnekraft, og dér kan moderne grafikprocessorer hjælpe.

Meget forenklede hjerner

Forskerne har i dag også eksempelvis billedanalyse-databaser med millioner af fotos til rådighed, og mange af dem har tilknyttet information om, hvad billedet forestiller.

De dybe neurale netværk, som er et område inden for maskinlæring, som både universiteter og virksomheder forsker i, er velegnede til visse typer data som eksempelvis billeder eller talegenkendelse. Andre typer algoritmer er tilsvarende bedre egnet til andre opgaver. Fælles for algoritmerne er, at de grundlæggende bygger på statistik.

»Ideen om en hierarkisk struktur i dybe neurale netværk har inspiration fra, hvordan hjernen er opbygget, men neurale netværk i tekniske applikationer er meget forenklede modeller af hjernen,« siger Christian Igel.

»I praksis er vi langt fra at kunne efterligne vores hjerner, men det er heller ikke nødvendigvis målet for dem, der forsker i maskinlæring. Hjernen er et helt andet ‘stykke hardware’ med andre begrænsninger end computeren, men stadigvæk en stor inspiration.«

Dårlige til at lære af fejl

Professor Lars Kai Hansen fra DTU Compute uddyber, at maskinlæring traditionelt er baseret på tre principper, som vi har lært af hjernen: massiv parallelberegning, arbejdsdeling og læring fra eksempler. Ved at analysere maskinlæringsalgoritmer kan vi blive klogere på disse principper:

»For eksempel ser vi, at arbejdsdeling kan opstå spontant i dybe netværk, når massiv parallel beregning bliver kombineret med læring fra eksempler,« siger han.

Men der er stadig et stort behov for bedre forståelse af sammen­hængen mellem biologisk læring og maskinlæring.

»Vi arbejder lige nu på et spil, hvor vi har crowdsourcet dét at flytte rundt på kvantepartikler. Algoritmerne er helt vildt dårlige til det, fordi de arbejder lineært. Så hvis man har noget, der ligner en Mario-bane, og algoritmen falder i et hul, så vil den gå et lille hop tilbage og prøve igen med en lille ændring. Algoritmerne er dårlige til at lære af en fejl, fordi de tror, at den skete lige for lidt siden. Mennesker kan anskue det mere globalt,« siger spilforsker og postdoc Andreas Liebe­roth Wadum fra Aarhus Universitet.

Forsøget med kvantespillet på Aarhus Universitets ScienceAtHome.org går ud på at prøve at lade en stor mængde forskellige mennesker løse en svær opgave ved at udnytte menneskets evne til at afprøve vidt forskellige strategier for at løse et problem.

'»Algoritmen ved ikke, hvad den ikke ved. Mennesker kan være nysgerrige,« forklarer han.

Til gengæld er computeren hurtig til opgaver, som er vanskelige for mennesker, og her burde den eksponentielle udvikling i regnekraft føre til, at computeren hurtigt overhaler os. Men så enkelt er det ikke altid.

»Da Deep Blue slog Kasparov så det ud til, at computeren nu endegyldigt var bedre til skak end mennesker, men det var den så ikke helt, for hvis man sætter en skakmester sammen med en computer, så er de meget bedre end computeren alene,« siger Andreas Lieberoth Wadum.

Maskinlæring er hot

Feltet maskinlæring er lige nu et af de helt varme emner inden for it-branchen. Ud over at have fået de nødvendige regnekræfter og datamængder er området nu også nærmest nødvendigt for at håndtere disse datamængder.

»Google bruger det til kategorisering af dokumenter, og ­Google har også foretaget meget store investeringer i maskinlæring. Lige nu er det her, vi tiltrækker it-talenterne, og på den måde accelereres udviklingen som en selvforstærkende effekt,« siger professor Lars Kai Hansen fra DTU Compute.

Læs også: Hvad ved du om neurale netværk? Siemens bruger det til at fjerndiagnosticere havvindmøller

Et af områderne, hvor maskinlæring har vist sig at være effektiv, er inden for billedanalyse, som ikke bare bruges af internetfirmaerne, men også inden for eksempelvis sundhedssektoren. Det er dog ikke blot at tænde for algoritmerne.

Data skal også være brugbare, og én af udfordringerne for maskinlæringsforskerne er at få algoritmerne til at se bort fra data, der ikke er vigtige. Tilsvarende skal der være tilstrækkeligt med data.

»Inden for MR-billeder, for eksempel, har man adgang til store mængder data, som er tagget af læger. Men maskinlæring er stadig ikke automatisk; man skal være sikker på, at data er relevante, og der kan være problemer med at samkøre databaser fra forskellige MR-
maskiner,« siger Lars Kai Hansen.

Læs også: Intelligent software kan overgå mennesket i at knuse data - men være svær at kontrollere

Forskerne arbejder i disse år på højtryk med at gøre fremskridt inden for maskinlæring for at imødegå nogle af de nuværende udfordringer. DTU samarbejder eksempelvis med Glostrup Hospital om et projekt, hvor man vil forsøge at bruge statistiske metoder til kunstigt at forøge datamængden til oplæring af algoritmerne.

Det sker inden for skizofreniområdet, hvor der både er et bredt spektrum af patienter, som skal have forskellige typer medicin, og samtidig relativt få patienter. Derfor er der få data til oplæring, og det forsøger forskerne at udvikle metoder til at kunne fordoble datasættet ved at kombinere data fra forskellige personer.

En del af succesen inden for maskinlæringsfeltet lige nu skyldes ifølge Lars Kai Hansen, at forskningsmiljøerne også hos de store firmaer har været gode til at dele deres fremskridt inden for området, og mange af de mest populære algoritmer er open source. Det har betydet, at DTU kan hjælpe en bred vifte af danske firmaer med at indføre maskinlæring i alt fra medikoteknisk udstyr til internetannoncering.

»Potentialet for maskinlæring er enormt. Her på DIKU er det et obligatorisk fag, fordi vi tror, det vil være essentielt i den nærmeste fremtid. I dag forstår folk potentialet, vi har datamængderne, og vi forstår bedre metoderne,« siger Christian Igel.

Selv om maskinlæring som forskningsområde har eksisteret længe, og nu har fået assistance fra den tekniske udvikling, så er det stadig et felt, der kun bliver brugt meget få steder i forhold til, hvor maskinlæringsteknikkerne kunne hjælpe. Derfor har blandt andre DIKU med støtte fra Industriens Fond lavet et tilbud til virksomheder om at få assistance fra forskerne til at finde frem til områder, hvor teknologien kunne hjælpe industrien.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (1)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere
Brugerundersøgelse Version2
maximize minimize