Ph.d.-studerende: Kaggle lærer dig, at virkelighedens data aldrig er perfekte

Illustration: Kaggle
Ofte skal studerende løse dataudfordringer med næsten perfekte datasæt. Men sådan er virkeligheden ikke, og det kan man lære på konkurrenceplatformen Kaggle.

Uanset om man er professor i machine learning eller spirende data scientist, er der god grund til at kaste kræfter efter konkurrence-platformen Kaggle.

Her dyster udviklere fra hele verden om at løse konkrete data-udfordringer bedst muligt. Og det kan ikke lade sig gøre at deltage i en Kaggle-udfordring, uden at lære noget man kan bruge.

Sådan lyder beskeden fra David Kofoed Wind, der skriver sin ph.d. om machine learning på DTU’s Institut for Matematik og Computer Science, i et interview med DataTech, Ingeniørens nye medie om data og analytics.

Særligt for studerende og forskere er der en rigtig sund udfordring i at lave noget, der performer godt i virkeligheden, forklarer han.

»Man lærer hurtigt, at virkeligheden har det med at være meget besværlig. Det datasæt, man syntetisk genererer, er meget fint og passer ind i alle de teoretiske modeller, man selv har formuleret. Men i virkeligheden er data ikke sådan,« siger David Kofoed Wind.

»I virkeligheden mangler man ofte halvdelen af dataen, den data, man har, er gået i stykker, og det, man skal forudsige, passer ikke lige ind i de modeller, som teorien er glad for.«

Realitetstjek

På Kaggle kan virksomheder lægge data ud sammen med en konkret problemstilling. Ofte udlover afsenderen samtidig en kontant præmie til det bedste løsningsforslag.

Kaggle renser data groft, men data kan stadig have fejl, og det giver ifølge David Kofoed Wind praktikerne en fordel over akademikerne.

»Kaggle-udfordringer handler ofte meget lidt om teori, og handler rigtig meget om at være en god programmør, om at teste ting hurtigt, og om at iterere på de ideer man har. Det er derfor, at det ofte er softwareudvikleren i pensionsselskabet, der vinder. For de er vant til at arbejde på den måde, og de sidder hver dag og koder og pusher ting i produktion. De har måske ikke studeret alle modellerne, men de kan google ligesom os andre,« siger David Kofoed Wind.

»Det er for mange forskere ikke intuitivt, at det er vigtigere at kunne programmere godt end at kende modellerne i detaljer,« påpeger han.

Både som studerende og erfaren akademiker kan en Kaggle-konkurrence være et sundt realitetstjek, vurderer David Kofoed Wind:

»Hvis man som akademiker reelt mener, at man er dygtig i machine learning, og brander sig selv på den måde, så skulle man gerne kunne slå en, der sidder i et pensionsselskab og programmerer .NET. Hvis man ikke kan det, så skulle man måske genoverveje, hvad det er, man egentlig brander sig selv som. Jeg tror, der er nogen i forskningsverdenen, for hvem det kunne være rigtig sundt at opdage, hvad man egentlig kan.«

Læringsgaranti

Det er ikke kun dataens natur og kvalitet, der adskiller universitetsopgaver fra virkeligheden. Ofte er opgaven skræddersyet til at passe en bestemt model, siger David Kofoed Wind.

»Mange kurser har en struktur, hvor de studerende skal tilføje to linjer til en model, som næsten er færdig på forhånd. Og så skal du bruge modellen på et perfekt datasæt. Problemet er bare, at næsten alle problemer har ikke nogen god model, og dataen er der ikke, og det hele er gået i stykker, og man kan ikke forudsige det, man skal forudsige. Og det betyder, man skal kunne nogle helt andre ting,« understreger han.

Og her er Kaggle en fed, motiverende måde at lære hurtigt på – uanset om man er akademiker, studerende eller erfaren dataanalytiker.

»Hvis man deltager i en Kaggle-konkurrence fra start til slut, kan du godt være sikker på, at du lærer noget. Man kan sætte sig og læse en tutorial, men så er det svært at vide, om man rent faktisk har lært noget. Med Kaggle kan det ikke lade sig gøre at deltage uden at lære noget, man kan bruge til noget,« siger David Kofoed Wind.

Få Kaggles egen introduktion til Kaggle her:

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (0)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere