Taler du data? Tal-sprog er en kritisk evne i digital verden – og alt for få har den

Illustration: Sergey Nivens/Bigstockphoto.com
Det er vanvittigt, at vi giver missionskritisk data til medarbejdere uden at teste, om de er data-analfabeter, mener analytiker.

I 1954 udgav Darrell Huff den ikoniske bog ‘How to lie with statistics'. Bogen oplister nogle af de mest hyppige fejl, der begås i arbejdet med data – som f.eks. at undgå sample bias, at blande kausalitet sammen med korrelation og lægge for meget vægt på gennemsnittet.

I dag – 64 år efter – er det ikke desto mindre de samme fodfejl, der begås i dataarbejdet.

»Jeg er ked af at sige det, men det ser ikke ud til, at forretningsverdenen har lært lektien, der blev udlagt i den bog,« sagde VP hos Gartner Debra Logan på analysefirmaet Data & Analytics-konference i London i sidste måned.

Læs også: Bilgigant: Vi skal ikke acceptere latterlige manuelle data-processer

Der er brug for data-literacy, lyder pointen fra Gartner, der beskriver data-literacy som evnen til at læse, analysere og argumentere med data.

Ifølge undersøgelser, som Gartner har lavet, er mangel på data-literacy den næststørste stopklods for at forbedre brugen af analytics i virksomheder.

Linda-problemet

I årtierne, siden ‘How to lie with statistics’ udkom, har vi set adskillige studier, der peger på, at mennesker generelt ikke er særlig gode til intuitiv forståelse af statistik og sandsynligheder, forklarer analytikeren.

Et af de mest toneangivende eksempler kommer fra den israelske forsker Amos Tversky, der sammen med kollegaen Daniel Kahneman demonstrerede den såkaldte conjunction fallacy.

Læs også: Gartner: AI er overhypet - dit firma er ikke mere bagud end de andre

I forskernes eksempel præsenteres den fiktive Linda – en 31-årig single, der har læst filosofi og i sin studietid gik meget op i problemer med diskrimination. Testpersonerne får herefter lov til at bedømme, om Linda er bankansat, eller om hun er en bankansat, der er aktiv i feministbevægelsen.

Selv om det matematisk mest sandsynlige svar altid er mulighed nummer et, valgte størstedelen af respondenterne mulighed nummer to – et fænomen, som forskerne tilskriver menneskers tendens til at foretrække det svar, der bedst repræsenterer deres forståelse af Linda.

Datakørsel uden kørekort

Conjunction fallacy er blot en af de måder, hvorpå menneskehjernen har tendens til at fejlfortolke data. Og den tendens er naturligvis uheldig, hvis man vil bruge data til at træffe beslutninger. Særligt hvis man – som Gartner længe har været fortaler for – vil udbrede dataanalyse til alle dele af virksomheden eller organisationen.

»Vi mennesker er ikke bygget med en naturlig evne for statistisk inferens. Det er de dårlige nyheder,« siger Debra Logan.

»Den gode nyhed er, at vi kan gøre noget ved det. Med en indsats og med træning kan vi forbedre vores evner.«

Der er behov for at fastsætte en ny baseline for data-literacy, understreger Debra Logan, der sammenligner det med et kørekort.

Læs også: Københavns Universitets datageneral: Vi starter på en frisk med GDPR

»Der var en tid, hvor ingen havde brug for et kørekort. Men som veje blev bygget, og infrastrukturen blev mere kompleks begyndte det at give god mening, at man certificerer, hvor gode folk er til at køre en metalboks på hjul ved høje hastigheder.«

På samme måde skal virksomheder og organisationer kunne måle og certificere, hvor stærke medarbejderes data-evner er.

»Er det ikke vanvittigt, at vi giver ansatte adgang til missionskritisk data uden certificering?« spørger Debra Logan.

»Det er bydende nødvendigt at tilføje certificering i takt med, at vi åbner op for adgang til data. Og ligesom vi har forskellige kørekort til forskellige køretøjer – biler, motorcykler, lastbiler – skal vi have forskellig træning og certificering til forskellige typer brugere.«

Stigende data-gap

Mange virksomheder har anerkendt behovet for at træne medarbejderes dataforståelse.

På Ann og Robert H. Lurie Children's Hospital of Chicago opdagede man f.eks., at klinikkere ikke havde den nødvendige viden om statistik, og hospitalet er derfor i gang med at lancere interne kurser samt en data-blog, der skal skabe et fælles sprog omkring data.

I forsikringsvirksomheden Lloyds of London, der tilbyder forsikring af alt fra satellitter til fodboldspilleres ben, har man sat sig som mål at øge data-literacy. Det har krævet obligatoriske kurser for alle medlemmer.

Mængden af data, der er i hænderne på virksomheder, er i voldsom vækst. Omvendt vokser data literacy højest linært, hvilket øger afstanden mellem muligheder og faktiske evner. Hvis alle bliver i stand til at udnytte den data, vil det være en revolution, mener Debra Logan, der sammenligner det med udbredelsen af læse- og skrivefærdigheder.

»Det er vores æras revolution. Men hvis vi vil have data-oplysning, må vi have data literacy.«

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (20)
Torben Mogensen Blogger

Det engelske "imperative" kan kun oversættes til "imperativ(t)" på dansk, når det enten gælder den grammatiske bydemåde eller en forældet programmeringsstil. I den brugte betydning, skal det oversættes til "bydende nødvendigt", "uomgængeligt", eller noget tilsvarende.

Knud Larsen

På DTU fastholdt man i mange mange år at undervise ingeniører i matematisk statistik, i stedet for at erkende det nok var anvendt statistik, der var behov for.
Da der blev søgt om tilskud fra ministeriet til at modernisere uddannelsen på 3 udvalgte steder blev pengene hurtigt brugt til udvikling af moderniseringen (det var nu allerede beskrevet) og derefter forsvandt ethvert spor af moderniseringen.
Forandring er svært. Modstand mod forandring er meget stærkt.

Torben Mogensen Blogger

Selv om det er rigtigt, at man skal være varsom med at sige, at halvdelen er under gennemsnittet, så gælder det faktisk for intelligens. For at snakke om gennemsnit, skal man have et numerisk mål, og for intelligens er det gængse mål intelligenskvotient, som er defineret som en normalfordeling centreret omkring 100. Så efter den definition er fordelingen symmetrisk, og halvdelen er under gennemsnittet.

Torben Mogensen Blogger

Men der hævdes (vist) at have levet enkelte personer med en IQ over 200, hvorimod en IQ under 0 synes umulig. Så HELT symmetrisk er den ikke.

IQ er ikke en absolut skala, så 0 betyder ikke hjernedød, men blot, at man ligger 6.667 standardafvigelser under middelværdien (hvis standardafvigelsen er 15, som er den gængse, når der måles IQ). Sandsynligheden for dette er meget lille -- omkring 3×10^(-12), hvilket gør det meget usandsynligt (ca. 2% chance) at nogen på jorden har en IQ på 0 eller mindre. Men sandsynligheden er per definition præcis den samme som, at en person har en IQ på 200 eller mere, så det er der nok heller ingen, der har haft. Med mindre man har brugt en skala med standardafvigelse på 24 (som af og til bruges). Så er sandsynligheden 1,4×10^(-6), hvormed ca. 1000 mennesker på jorden har IQ på 0 eller mindre, og ditto for 200 eller mere.

Hans J. Nielsen

Lad mig først lige citerer fra selve artiklen.

I 1954 udgav Darrell Huff den ikoniske bog ‘How to lie with statistics'. Bogen oplister nogle af de mest hyppige fejl, der begås i arbejdet med data – som f.eks. at undgå sample bias, at blande kausalitet sammen med korrelation og lægge for meget vægt på gennemsnittet.

Det er derfor sjovt at se kommentarerne til denne artikel, netop prøve at forklare artiklen, ud fra et gennemsnit.

Har man 100 mennesker og den gennemsnitlige IQ for disse er 100, så betyder det altså ikke, at halvdelen af dem (50%) har en IQ der ligger under gennemsnittet. De 50 af den (læs 50%), kan jo godt have en IQ på 100, på samme tid.

Tror faktisk også det er det kurven i "Intelligence normal distribution, " viser.
Folk har det bare med at læse denne kurve horisontal og glemme at læse den vertikal.

Poul-Henning Kamp Blogger

Har man 100 mennesker og den gennemsnitlige IQ for disse er 100, så betyder det altså ikke, at halvdelen af dem (50%) har en IQ der ligger under gennemsnittet. De 50 af den (læs 50%), kan jo godt have en IQ på 100, på samme tid.

Det er en sjældent værdsat pointe, at man stort set kun kan bruge gennemsnittet kvalitativt hvis det er magen til medianen og at man, når man nu har udregnet medianen, oftest har mere nytte af den end gennemsnittet.

Stephen Jay Gould's "The Median Is The Message" kan varmt anbefales.

Poul-Henning Kamp Blogger

IQ er ikke en absolut skala, så 0 betyder ikke hjernedød, men blot, at man ligger 6.667 standardafvigelser under middelværdien (hvis standardafvigelsen er 15, som er den gængse, når der måles IQ).

Det er kun korrekt, hvis du har a-priori viden om at dine data faktisk er normalfordelt.

Antagelsen om at IQ målinger er normalfordelte er dybt problematisk på flere måder, både teoretisk, fordi måden man "kalibrerer" IQ tests er ved at få resultatet til at se normalfordelt ud på samme måde som "andre anerkendte IQ tests", men også af analytiske årsager.

Data er f.eks per definition ikke normalfordelte, hvis skalaen rækker længere i den ene retning end i den anden.

Nedbørsintensitet er det pædagogiske eksempel på dette: Det hedder ikke nedbør hvis der ikke er noget af det eller hvis det bevæger sig opad, dermod er der i princippet ikke nogen relevant øvre grænse for en vandstråles terminalhastighed. (I virkeligheden ser nedbørsintensitet ud til at være lognormal)

Der er mig bekendt ingen IQ tests der kan give negative tal til gengæld varierer det vildt hvor store tal de kan producere og mange af dem kan i princippet give vilkårligt store tal, fordi de dividerer med hvor lang tid det tog at løse opgaven.

Derfor har du simpelthen ikke ret: En IQ måling på nul, betyder ene og alene at en IQ-test har spyttet et nul ud og hvordan den nåede til det resultat kan du kun finde ud af ved at studere den pågældende tests design.

Baldur Norddahl

Det er kun korrekt, hvis du har a-priori viden om at dine data faktisk er normalfordelt.

Der er meget evidens for at intelligens er normalfordelt hvis man ser bort fra yderpunkterne.

Problemet med yderlighederne er at meget lav intelligens som regel skyldes sygdom eller fysiske defekter i hjernen. Antallet af sådanne personer er stærkt påvirket af forhold i samfundet, eksempelvis hvorvidt moren ryger, drikker, er udsat for kemikalier eller fysisk vold.

Det meste forskning er rettet imod lav intelligens, så vi har mindre viden om yderlighederne opad. Men jeg føler mig sikker på at skalaen også bryder sammen her. Matematikken ved en normalfordeling antyder at man kan finde vilkårlig intelligente personer, omend med lille sandsynlighed, og det tror jeg ikke er tilfældet.

Baldur Norddahl

Der er mig bekendt ingen IQ tests der kan give negative tal til gengæld varierer det vildt hvor store tal de kan producere og mange af dem kan i princippet give vilkårligt store tal, fordi de dividerer med hvor lang tid det tog at løse opgaven.

Det er i øvrigt ikke rigtigt. IQ test er kalibreret til et interval. Resultater udenfor dette interval er ikke gyldigt. Du kan ikke benytte samme test på psykisk handicappede og højt begavede.

Den normale måde at kalibrere er at teste et større antal mennesker og plotte deres svar ind på en normalfordeling. Man kan også kalibrere i forhold til andre tidligere test.

Eksempelvis har den danske stat testet næsten alle mænd siden 50'erne i nøjagtig samme test. Der er ikke nødvendigvis en lineær sammenhæng mellem antal svar og IQ. Militæret udregner ikke en IQ og du får kun antal rigtige oplyst af dem. Men andre forskere har brugt data herfra til at udregne IQ på den mandlige befolkning i Danmark.

Militærets test kan ikke give et højere resultat end "alle rigtige". Det bliver ikke registreret hvor meget tid du havde til overs. Og det er typisk for mange IQ test. Men selv hvis du i stedet havde en test, hvor man tager tiden med i betragtning, så ville resultater udenfor kalibreringen ikke være gyldige.

Hans Nielsen

Du kan ikke benytte samme test på psykisk handicappede og højt begavede.

Jo, men svaret er så ikke helt valide, i yderområderne.
Forsvaret vil alligevel ikke have bundskraber, og toppen er normalt for "kloge", eller ikke egnet til at tage den retning.
Begge yderpunkter passer normalt ikke godt ind i systemet.

En ordblind testet i en skriftlig test, er ikke valid. Men hvis vi regner med at ordblinde, har samme fordeling af IQ som resten. Så betyder det intet. Og hvis de ikke har. Så er antallet så lille, at det ikke har indflydelse på resultatet ?

Men hvorfor kommer IQ ind her, nogle som tror de er klogere end andre.

Synes tit at netop de mennesker som angiveligt får en høj IQ, og samtidigt også gerne vil give omgivelser indblik i hvor høj score de har fået, de tit virke lidt dumme. De rigtige kloge mennesker som jeg har mødt, er dem som kan formidle deres viden, og får andre til føle sig kloge, når de forstår det formidlet.

Ditlev Petersen

Synes tit at netop de mennesker som angiveligt får en høj IQ, og samtidigt også gerne vil give omgivelser indblik i hvor høj score de har fået, de tit virke lidt dumme. De rigtige kloge mennesker som jeg har mødt, er dem som kan formidle deres viden, og får andre til føle sig kloge, når de forstår det formidlet.


Jep. Muligvis er der en forskel på at være intelligent (at kunne kværne en masse information) og at være klog (at have viden, at kende sine begrænsninger og have en veludviklet evne til ikke at rode sig ud i noget). Hvis man antager en sådan skelnen, så kan den arrogante intelligente falde igennem over for den vise middel
/under middel-begavede. Nogle har jo en skrækkelig evne til at undervurdere andre, og så står de pludselig med f.eks. en masse rotter, som ingen andre har set.

Antagelig er der også meget intelligente, som enten undgår at rode sig ud i ting, eller som faktisk er så smarte, at de ikke bliver afsløret. Det sidste, de smarte skurke, dr. Moriarty-typerne, er egentlig lidt bekymrende.

Log ind eller Opret konto for at kommentere
Pressemeddelelser

Welcome to the Cloud Integration Enablement Day (Bring your own laptop)

On this track, we will give you the chance to become a "Cloud First" data integration specialist.
15. nov 2017

Silicom i Søborg har fået stærk vind i sejlene…

Silicom Denmark arbejder med cutting-edge teknologier og er helt fremme hvad angår FPGA teknologien, som har eksisteret i over 20 år.
22. sep 2017

Conference: How AI and Machine Learning can accelerate your business growth

Can Artificial Intelligence (AI) and Machine Learning bring actual value to your business? Will it supercharge growth? How do other businesses leverage AI and Machine Learning?
13. sep 2017