Dansk professor i R’s Core Team: Vi har et foryngelsesproblem

Professor på Center for Statistik på CBS, Peter Dalgaard. Illustration: CBS
Skaberne af statistiksproget R forventede i omegnen af 200 brugere, og den forudsigelse havde været sand, hvis det ikke havde været open source, fortæller det danske medlem af R’s Core Team.

Der er så godt som ingen lister over dataanalysens vigtigste værktøjer, der ikke sætter R blandt de absolut mest populære. Statistikmiljøet fra 90’erne er sprunget ud af det akademiske arnested og ned i værktøjskassen hos alverdens dataprofessionelle.

Den hastige stigning af R-brugere har kun været mulig, fordi systemet er åbent, mener Peter Dalgaard, professor på Center for Statistik på CBS og medlem af R’s Core Team siden 1997.

»Da vi startede, troede vi, at systemet måske ville have et par hundrede aktive brugere. Og hvis det havde været kommercielt, så ville der kun have været så mange brugere. Det er, fordi det er åbent, at det er eksploderet,« siger han.

På CRAN, der fungerer som repository for R-pakker, steg antallet på kort tid fra de første 12 til de første 1.000, og i dag rummer CRAN over 12.000 pakker. Populariteten giver også problemer for R’s Core Team.

»Der er reelt kun en håndfuld personer, der styrer CRAN-netværket,« fortæller Peter Dalgaard.

»De kigger på pakkerne og accepterer eller afviser dem, og det er en kæmpe arbejdsopgave, som de tager sig af. Der er simpelthen lavet så mange pakker, som kan gå i stykker på så mange forskellige måder, at CRAN risikerer at segne under sin egen vægt.«

Snak om pensionen

Der har reelt ikke været ressourcer til at kuratere de indkomne pakker foruden at tjekke, at de lever op til en række minimumskrav. Det betyder, at ingen undersøger, om der er pakker, der gør det samme. Det har gjort, at CRAN på brugersiden er blevet relativt uoverskuelig, siger Peter Dalgaard.

Samtidig lurer det faktum, at de aktive kræfter i R’s Core Team ikke vil blive ved roret for evigt.

»De fleste af os var lige knap 40, da vi startede i 1997, så nu er vi lige knap 60. Man begynder at have med folk at gøre, der snakker om pensionen, og flere er allerede gået på pension,« siger Peter Dalgaard og fortsætter:

»Vi har et foryngelsesproblem. På et eller andet tidspunkt skal der komme en foryngelse af vores Core Team. Den er i gang, men det sker forholdsvis langsomt.«

Trods udfordringer med at luge ud i CRAN har netværket været afgørende for R's succes.

»Det skal ses i lyset af tidligere software-repositories, hvor der var en tendens til at gå 'bitrot' i den. Det vil sige, at folk har lagt noget kode op, som engang virkede for dem, men hvis andre skal bruge det, skal de først regne ud, hvad det gør, og hvordan de får det til at køre på deres platform.«

Her har CRAN's minimumskrav til struktur, dokumentation og krydsplatformstestning bevirket et betydeligt kvalitetsløft, mener Peter Dalgaard.

Tilpas åbenmundet

I 90'erne sad Peter Dalgaard på en forskningsafdeling for biostatistik, arbejdede med Sun workstations og var interesseret i Unix-baserede styresystemer til de nye pc’er frem for det dengang ret primitive Windows.

»Der manglede nogle statistikværktøjer. Der manglede noget, man kunne bruge på de platforme, der begyndte at komme frem,« forklarer han.

Det, der kom tættest på, var det dengang relativt nye S-PLUS, som R-udviklerne senere kom til at referere spøgefuldt til som prototypen. S-PLUS byggede på 'S', som var udviklet på Bell Labs af John Chambers m.fl.

»S-PLUS kunne man få i en pc-version til 20.000 kroner om året. Det var ikke rigtig realistisk for en almindelig dødelig adjunkt. Det var galt nok at betale computeren,« pointerer Peter Dalgaard.

Nogenlunde samtidig havde undervisere på University of Auckland i New Zealand et andet problem med S+, nemlig at det ikke fungerede til Macs, som universitetets computer lab var udstyret med. Derfor endte de to universitetskolleger Robert Gentleman og Ross Ihaka med at lave et 'mini-S' til deres studerende, kaldet 'R' - med en mulig hentydning til deres fornavne.

»R blev lagt online, og der kom mailinglister, hvor man kunne diskutere udviklingen og håbe på at præge den,« beretter Peter Dalgaard.

»Der var jeg så tilpas åbenmundet, at jeg fik invitationen til at komme med i R-core i slutningen af 1997.«

Inde i gruppen begyndte Peter Dalgaard at blande sig i det system til versionskontrol, som R var lagt ind i, og tale for at lave en formaliseret proces for, hvordan man laver releases og forgreninger.

»Og inden jeg fik set mig om, fik jeg spørgsmålet, om det betød, at jeg var ved at melde mig frivilligt som releasemanager,« fortæller han.

Commodore-64-generationen

Core Teamet blev født ud af Commodore-64-generation, forklarer Peter Dalgaard. Folk, der havde rodet med computere, fra de var unge, og ladet sig opsluge af det.

Sammensætningen af Core Teamet havde stor betydning for projektets troværdighed og i sidste ende enorme succes, mener den danske professor.

»Der var en del stykker software, der på det tidspunkt blev udviklet og døde, fordi ham, der skrev koden, fik job i industrien. Så det har nok betydet en hel del, at vi var en gruppe mennesker, som stort set alle var fastansatte og havde vores ph.d-grader,« siger Peter Dalgaard.

Arbejdet med R har til tider tæret på deltagernes forskningsmæssige produktivitet, bemærker han.

»Vi har været ret omhyggelige med ikke at trække folk ind i Core Team-arbejdet på et tidspunkt, hvor det var kritisk for deres karriere. Det har taget meget af vores tid.«

Demokratisering af analyseværktøjer

I 2011 kom den første beta fra selskabet R-studio, der havde succes med at samle et miljø af nye brugere omkring selskabets grafiske brugerinterface, samlingen af data science-pakker tidyverse og pæne tegninger i ggplot2. Her har R-Studio fyldt et rum, som R’s Core Team ikke har løftet, mener Peter Dalgaard.

»De har gjort det, som vi måske har forsømt i Core Teamet, hvor vi ikke altid har været præskriptive nok,« forklarer han.

»Vi er ikke gået ud og har fortalt folk, hvordan de gør forskellige ting. Vi har ofte bare vist dem en funktion, og så må folk selv finde ud af, hvordan man bruger den. Og det har R-Studio kunnet kapitalisere en hel del på.«

Alt i alt har R-Studio formået at gøre R mere tilgængeligt for en bredere skare. Men somme tider kommer det lidt for langt væk fra den akademiske statistikbrug, mener Peter Dalgaard.

I 2015 købte Microsoft selskabet Revolution Analytics, hvilket igen gav R et rygstød. Pludselig var R et Microsoft-produkt, og så begyndte folk at tage det mere alvorligt, vurderer Peter Dalgaard.

»Overordnet er det godt, at de her værktøjer demokratiseres. Man skal bare holde fast i, at der er en teoretisk kerne, man skal passe på ikke forsvinder. Nogle gange bliver det lidt for nemt, og så mangler der lidt selvkritik,« siger han.

»Det er en generel data science-problematik, at der går lidt for meget black box i den. Og så kan man nemt miste blikket for antagelser og basale statistiske metoder.«

Ingen arvtager i sigte

Med et stigende antal biblioteker til dataanalyse har programmeringssproget Python gjort sig til et centralt værktøj for de fleste data scientists. Peter Dalgaard ser dog ikke umiddelbart Python som arvtager for R. I stedet kommer de to sprog til at blive brugt side om side med hver deres styrker, vurderer professoren, der mener, at R er svært at erstatte.

»Inertiens lov begynder at spille en rolle. Der er lavet så meget i R, at det er svært at lave det samme igen i et andet sprog,« siger han.

»Men det er aldrig til at vide, hvor længe ting bliver hængende i computerverdenen. Der er ting, der bliver overhalet af noget nyt og bedre, og andre ting lever langt længere, end nogen havde forestillet sig.«

Hvis den rigtige arvtager kommer, vil Peter Dalgaard hilse det velkomment.

»Det skal man som en forskningsorienteret person. Det kan være, du har en god ide nu, men hvis der kommer noget bedre, så må man glæde sig over, at det kommer og vinder indpas. Der er bare ikke noget, der tyder på, at det er på horisonten lige nu.«

Artiklen stammer fra Ingeniørens PRO-medie DataTech, som er målrettet professionelle i såvel private virksomheder som offentlige organisationer, der arbejder med data og analytics.

DataTech sætter fokus på anvendelse af data i en stadigt mere digitaliseret verden. Udgivelsen følger danske virksomheder, kommuner og institutioners arbejde og strategier med at skabe mere værdi ud af data.

Du får inspiration, råd og erfaringer om, hvordan du analyserer og udnytter data, hvordan du navigerer ansvarligt og effektivt i junglen af love og regler på området, samt hvordan du udbreder værdien af dataanalyse til alle hjørner af organisationen.

DataTech giver dig viden om de nyeste teknologiske løsninger på tværs af fagområder, markeder og landegrænser. Og er medspiller i en fælles mission om at fostre etisk og sikker brug af data fordel for virksomheder og borgere.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (2)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#2 Knud Larsen

R. A Fisher grundlage 'design og experiments' en vigtig del af anvendt statistik for forsøgsplanlægning omkring 1935. Desværre var der ikke nogen computer programme,r så det var småt med planlagte forsøg til trods for, at mange ingeniører fik kurser (betalt) selvfølgelig - det var ikke en del af pesnum på DTH. Der havde man kun statistikkere fra Københavns Universitet, der fejlagtigt underviste i 'teorestik statistik'. G . Taguchi fra Japan kendte til Fisher's arbejder og gjorde en stor indsats for udbredelsen i Japan og via Ford's engagement blev det også genopfundet i Vesten. Men stadig var der ikke nogen programmer til at understøtte det i 1987. Så B&O og andre danske industrivirksomheder gjorde en indsats for at få det genoplevet i DK. Så i mangel af bedre påtog jeg mig selv at lave et program til opgaven i 1987-1988. Det blev til optimal.dk . Der gik stadig mange år inden R og andre kom på banen. Der blev i øvrigt givet offentlig støtte til at undervise i forsøgsplanlægning på DIA, Århus Universitet og et sted mere. Men denne støtte blev hurtig brugt, og så var tilstanden tilbage, hvor den altid har været - teoretisk . Trist at det skal være så svært at ændre på adfærd og holdninger og tak for at vi er nogle få ildsjæle der gør en frivillig indsats for at ændre på forholdene.

  • Strategi:
  • I Kina gør man, hvad der bliver sagt.
  • I USA, hvad man bliver betalt for.
  • I EU diskuterer vi som en børnehave.
  • 0
  • 0
Log ind eller Opret konto for at kommentere