Dette indlæg er alene udtryk for skribentens egen holdning.

Nu kommer næste skridt i AI fra Google og OpenAI

12. marts kl. 09:59
GPT4
Illustration: Erik David Johnson.

Mens vi alle er tryllebundet af ChatGPT, har AI eksperter verden over snarere oplevet at det især handler om at tilgængelige sprogmodeller som GPT er blevet pakketeret og lagt ud til masserne. Ud over at være en revolution i HCI (Human Computer Interaction), har det også kickstartet ræset for at være først og bedst fra de store spillere som OpenAI (sammen med Microsoft) og Google.

Jeg har selv tænkt at hvis ChatGPT skulle løfte sig til næste niveau skulle det suppleres, udvides eller erstattes af løsninger der i højere grad tillader den at træde ind i brugssituationen med sit menneskelige modstykke. Det engelske ord ”agency” er bedst til at beskrive det – dvs. gøre ChatGPT til en agent i verden – vel at mærke den menneskelige verden, hvor en sproglig udveksling altid er betinget af en kontekst og den fælles viden om verden samtalepartnerne har og deler.

Nu har Microsoft løftet sløret for deres næste stormskridt på AI scenen: GPT-4 introduceres allerede næste uge og den bliver multimodal. 

GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany | heise online

Artiklen fortsætter efter annoncen

"Vi introducerer GPT-4 i næste uge. Vi vil have multimodale modeller, der vil tilbyde helt andre muligheder, som f.eks. videoer.” udtaler Microsoft Germany CTO Andreas Braun.

Hvis de store sprogmodeller kan arbejde med input i form af video, lyd og billede, betyder det at der vil være helt nye muligheder for AI at træde ind i vores verden med ”agency” eller ”deltagelsesmulighed” om man vil. Man kunne nemlig forestille sig at AI-modparten kunne modtage instruktioner og agere i den menneskelige verden ud fra instruktioner eller direktiver.

Jeg nåede dårligt nok at tænke tanken til ende inden at Google lancerede deres næste træk i AI-ræset: PaLM-E. PaLM-E: er en kropsliggjort, multimodal sprogmodel. Det betyder at den træder ind i situationen og konteksten med sine menneskelige modparter og kan agere på de sproglige udvekslinger og visuelle og auditive input.

PaLM-E: An embodied multimodal language model – Google AI Blog (googleblog.com)

Artiklen fortsætter efter annoncen

For eksempel kan den forstå et billede på et niveau, hvor den ikke alene kan beskrive indholdet af billedet, men også svare på hvad det næste der vil ske i billedet er. Lige nu er robotten der benyttes til demonstration meget langsom, potentialet er svimlende at tænke på – alene inden for automatisering og AI-understøttelse af praktiske opgaver.

Men hvis vi slutter af med at slå koldt vand i blodet, skal vi huske at disse sprogmodeller fortsat er betinget af logisk atomisme – dvs. at de behandler det menneskelige sprog og samtaler (sprogspil), som beregninger på hvilke ord der hører sammen. Læs mere om dette i min seneste artikel om emnet:

ChatGPT er ikke stærk AI | PRO (version2.dk)

Men lige som min egen forskning i stærk AI understøttet af ontology engineering er noget jeg ser som essentiel brik i at opnå stærk, generel kunstig intelligens, er agency gennem multimodalitet også en vigtig brik for at kunne træde ind på den del af den menneskelige præmis der handler om en fysisk situation betinget af ting som tid og rumforhold.

Så kom Google først denne gang, eller vil GPT-4 med sin implementering af multimodalitet cementere førerpositionen for OpenAI og Microsoft? Vi afventer spændt lanceringen af GPT-4 næste uge!

Ingen kommentarer endnu.  Start debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger