bloghoved erik david johnson

Har jeg nok data til AI?

Som erfaren arkitekt bag og fortaler for forretningsapplikationer af AI, er jeg er i mit møde med de danske virksomheder stødt på en anden interessant antagelse: Man går ud fra at AI kun kan udnyttes af få, udvalgte virksomheder med enorme mængder data og kompleksiteter. Det er, efter min mening, en total fejlantagelse. Kan vi venligst få de mindre og middelstore virksomheder op af stolene?

Hvor sent tør jeg tænke på AI i min forretning?

Jeg har i min tidligere artikel talt om fejlen i at antage at AI-tiltag er noget man sagtens kan vente med at tage stilling til, og så når forretningskulturen endelig er moden til det, sætte initiativer i gang fra ’point blank’. Mange opsamler ikke den optimale data, som skal bruges af AI-modellen for at den kan være så nyttig som muligt, og igangsættelsen af en dataindsamlingsstrategi med henblik på udnyttelse af AI-modeller 1-2 år senere, er derfor en rigtig god investering.

Big Data og AI

Misforståelsen tager muligvis også afsæt i den lidt gammeldags tolkning af termen ’Big Data’ som lægger an til at man blot har enorme mængder data (Terabytes, Petabytes, osv.). Jeg kalder definitionen gammeldags fordi den ikke er tilpasset det moderne, relevante fokus på hvorledes udnyttelsen af Big Data kommer i spil – nemlig gennem træningen af AI-modeller. Det står selvfølgelig til diskussion, men jeg vil mene at en nutidig, relevant definition af ’Big Data’ må være ’nok data’ til at træne AI-modeller efter specifikke mål, sådan som jeg også var inde på i slutningen af mit første indlæg her på Version2.

AI: hvor meget data er nok data?

Men hvis det ikke nødvendigvis er Petabytes af data i ekstremt komplekse datalandskaber der skal til for at udnytte AI, hvad er det så? Dette er et komplekst spørgsmål fordi det kommer an på typen af tiltagene og de anvendte modeller, men rigtig mange af de succeser jeg ser beror på mønstergenkendelse. I senere indlæg vil jeg komme mere ind på hvordan man selv kan prøve at vurdere om man er moden til at udnytte AI-modeller i sin forretning, og hvordan man kan blive det hvis ikke, men for nu vil jeg sige at AI-modeller som lærer pr. eksempel (også kaldet ’supervised learning’) kan finde mønstre i data ud fra helt ned til et par tusinde eksempler, som kunne fylde alt fra et par hundrede Megabyte til flere Gigabyte – langt mindre end hvad mange forestiller sig.

Datakvantitet vs. datakvalitet

I virkeligheden burde man i stedet for at fokusere på datamængden, tænke på ting som datadækning, datakvalitet, datadiversitet og generelt på hvordan man arbejder med transaktionelle data, som ofte kan være en god kilde til AI-udnyttelse gennem mønstergenkendelse. Det er korrekt at AI-modeller kræver en del data, men vi er nu så langt inde i digitaliseringskapløbet at størstedelen af danske virksomheder har tilstrækkelige mængder data, og i stedet bør se på om det er data der understøtter deres forretningsmål ift. udnyttelse i AI-modeller – og ikke mindst om dette skal underbygges af en dataindsamlingsstrategi der er med til at sikre dette på sigt.

Relateret indhold

Kommentarer (10)
Erik David Johnson Blogger

Hej Andreas

Ja, vi har jo været uenige før, men jeg er glad for at du kommenterer - det er jo dem man er uenig med hvor man har noget at snakke om - og en mulighed for at flytte sig. Du har ret i at der skal mere til når det kommer til Deep Learning, MEN...

Når jeg siger at man ofte kan nøjes med så få træningseksempler referer jeg ikke til Deep Learning, simplere modeller som for eks. Feed-forward ANNs med mere begrænsede topologier, der med Backpropagation, kan approksimere ret komplekse, ikke-lineære funktioner (heraf mit fokus på transaktionelle data). Det lyder på din kommentar som om Deep Learning er den eneste (eller eneste relevante) implementering af kunstige neurale netværk, hvilket jo bestemt ikke er tilfældet.

Andreas Kirkedal

Hej Erik

Det er godt at pointere at man kan komme langt med lidt data, at 'Big' kan med fordel regnes i antal eksempler fremfor gigabyte og at man skal tænke datahøst ind tidligt.
Min erfaring her på det seneste er at mange (inkl. it-professionelle) sætter lighedstegn mellem AI og DL (pga. hypen) og lige DL-modeller kræver meget data, men var ikke nævnt i dit indlæg.

-Andreas

Erik David Johnson Blogger

Hej Andreas

God pointe. Jeg er helt enig - hype er med til at drive det lighedstegn der sættes mellem Deep Learning (DL) og "AI" generelt.

Det er muligt at DL kræver megen data, men det er igen fuldstændigt afhængigt af data og problemdomænet, og min erfaring er at der er mange relevante forretningsapplikationer, som ikke kræver Deep Learning implementeringer.

En anden hype-induceret forvridning af problemstillingen er også at man bruger mere komplekse modeller end problemet der skal løses fordrer. Det kan være at bruge AI-modeller til et simpelt lineært problem, men det kunne også være at bruge at bruge Deep Learning, hvor mindre kunne gøre det og hvor man derved skyder gråspurve med kanoner.

Log ind eller Opret konto for at kommentere