To nye danske bøger om R
Efter at have arbejdet med R i sammenlagt 10 år bliver jeg helt glad indeni over at der nu er begyndt at udkomme introduktionsbøger til R - på dansk. Der har tidligere været små kompendier og hæfter, der typisk har været designet til ét særligt kursus, men nu er der altså kommet egentlige lærebøger - begge med samfundsvidenskabeligt fokus.
Erik og Silje koder R
Den ene hedder R i praksis og er skrevet af nordmanden Silje Synnøve Lyder Hermansen, der er forsker på statskundskab i København og underviser i det indledende statistikkursus dér. Og den er oversat af Svend Ranild, der selv har en it-baggrund. Den anden hedder Introduktion til R og er skrevet af Erik Gahner Larsen.
Jeg underviser selv i introducerende R på både dansk og engelsk og har selv lavet et lille meget introducerende kompendie på engelsk, der er at finde her, så jeg er selvfølgelig ret begejstret for, at der nu er danske muligheder.
Specielt når man skal til at lære et nyt programmeringssprog, som ofte er ens første når det handler om R, kan det være dejligt, at det trods alt er beskrevet på ens modersmål. (folk med ekspertise inden for andetsprogs- og modersmålsundervisning vil sikkert give mig ret hér).
Her følger først en gennemgang er hver af de to bøger, og bagefter vil jeg lave en lille sammenligning, så du bedre kan vælge, hvis du nu står og skal lære dig selv eller andre at kode i R. Dog nørder jeg lidt ned i nogle detaljer hist og her, men jeg tænker, det er ok her hos Version2.
R i Praksis - en let lille base-R-sag
Vi starter med det nyeste skud på stammen, der landede i handlen den 20. januar i år - Hermansens R i Praksis.
Den introducerer til alle de elementer man har brug for som nybegynder - hvordan installerer man, hvordan kommer man i gang.
Den bruger i høj grad kun de indbyggede R-funktioner (base R), og det sammer gælder visualiseringerne, hvor det er plot() der bruges frem for den mere fleksible, men også mere kringlede ggplot() -funktion. Der er nogle ret nice tabeller rundt om i bogen, som er gode til lige at danne et overblik. Man kunne samle dem til et lille cheat sheet, som man kunne gøre tilgængeligt online (bare en idé)
Bogen har kun et forholdsvist lille wrangling-afsnit - selvom det jo ofte er det, man bruger mest tid på - til gengæld er der en virkeligt grundig indføring i lineær regression i R, og hvordan man fortolker resultaterne. Logistisk regression har også fået et kapitel med på vejen.
Bogen er trykt i farver, og det gør det rart at læse bl.a. koden (der er blå) og resultaterne (der er sort). Man kunne dog godt have udnyttet farverne i fx datavisualiseringerne, der stort set alle er grå. Der er også enkelte ord, der stadig står på norsk, men ikke noget der forstyrrer meningen.
Introduktion til R - med tidyverse og ggplot
Gahners bog har de samme fortræffeligheder hvad angår introduktionen som Hermansens. Man får introduceret, hvordan man installerer R, og der er en grundig gennemgang af lineær regressionsanalyse og logistisk regression.
Den er godt 100 sider længere end Hermansens, og det bliver blandt andet brugt på lidt mere om, hvordan man læser filer ind (hvilket er noget jeg selv bruger uforholdsvist meget tid på i øvelsestimerne), visualiseringer data wrangling.
Man kommer nok ikke udenom at tidyverse er en af de mest brugte pakker, og den omfavner Gahner i høj grad. I stort set alt wrangling og visualisering bruger han tidyverse, så hvis man kan lide at bruge den pakke, er det nok Gahners bog, der er sagen.
Introduktion til R kunne dog godt være trykt i farve. Da forfatteren bruger en del plads på visualiseringer - og dermed også farvekoder i sine grafer er det lidt trist, at det kun kommer til udtryk i gråtoner i den trykte bog.
Hvilken bog skal man vælge?
Det kommer an på flere ting. Jeg tænker det kan koges ned til om du er til tidyverse (Introduktion til R) eller base-R (R i Praksis) og hvor meget visualisering du har brug for. Hvis du bare skal bruge noget minimalt er R i praksis fint, hvis du gerne vil lave nogle lidt mere funky visualiseringer, er Introduktion til R nok bedst, så du kommer ind i ggplot()-universet.
Når det er sagt, så er en af udfordringerne med at skrive en R-bog i dag nok også at der findes en del utroligt gode blogindlæg. Dokumentationen af R-funktionerne kan godt være lidt svære at forstå og så er det utroligt rart at få hjælp fra et pædagogisk blogindlæg.
Det som en programmeringsbog skal kunne i dag er at tage den lærende i hånden, da det netop er et nyt sprog og en ny måde at tænke på der introduceres. Mens blogindlæg ofte skrives con amore til ens peers, er en lærebog til de studerende - altså dem der kan meget mindre end den der skriver indlægget.
Det synes jeg begge bøger gør så fint.
En dansk R-terminologi
Langt det meste af mit arbejde i R foregår med data frames. Altså en tabel-struktur hvor forskellige kolonner kan indeholde forskellige datatyper - men altid kun én datatype (fx med tal, navne, datoer) per kolonne.
Så er spørgsmålet - hvad skal de hedde på dansk? Hermansen kalder dem datamatricer og Gahner datasæt. Datamatricer synes jeg lægger sig lidt for meget op ad “matricer” som er en datastruktur i R hvor alle elementer skal være den samme datatype. Datasæt er på den anden side siger måske ikke så meget om strukturen? Så kunne man kalde det tabel, men der er en datastruktur i en populær R-pakke der hedder table. Og den er så lidt anderledes end data frames. Jeg har derfor ikke lige selv et godt bud, så den kan stå åben for diskussion!
En anden ting der slog mig er at begge bøger har et ret begrænset register. R i praksis har et nogenlunde udtømmende R-kommando-register, men ikke et sted at slå op hvis du vil finde ud af hvilken kommando du skal bruge. Introduktion til R har et meget lille register. Det jeg tænker er, om man i dag, hvor de fleste måske nok bruger ebog-formatet, ender med at søge i pdf’en - og så har man jo ikke brug for et register. Men når nu man sidder med en papirbog så ville det være godt med et register til næste udgaver - både med stikord og funktioner.
Måske en mere
En ting jeg synes er lidt ærgerlig er at begge bøger har samfundsvidenskabeligt fokus. Det er super fedt at der laves en sådan bog på dansk men når nu der er to, havde det måske været federe hvis den ene R-bog på dansk havde naturvidenskabeligt fokus også. For det er ofte lidt forskellig statistiske metoder man bruger.
Til gengæld er der rigtigt mange gode engelske R-bøger med naturvidenskabeligt fokus, så måske er det okay at vi lægger hårdt ud med samfundsfagligt fokus.
I hvert fald er det fantastisk at der nu er kommet nogle gode og gennemtænkte bøger med opgaver i og høje pædagogiske ambitionsniveauer.
Så ønsker jeg mig bare en ekstra R-bog på dansk der behandler lidt mere machine learning (fx lidt ikke-lineære modeller) og måske én der kigger lidt på typiske naturvidenskabelige problemstillinger. Mere vil have mere…

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.