Ny AI-bot tegner overraskende detaljeret efter tekst

Tegningen nederst til højre er tegnet af Microsofts nye AI-tegnebot, der kan levere tegninger udelukkende på baggrund af tekstbeskrivelser. Illustration: Microsoft
Microsoft har løftet sløret for deres nye AI-bot der kan tegne billeder alene ud fra tekstbeskrivelser.

En fugl med sorte vinger, en gul krop og et lille næb. Det er de eneste informationer som Microsofts research lab har fodret deres nye AI-tegnebot, før den har tegnet en forholdsvis avanceret tegning med mange detaljer.

Microsoft kalder deres nye AI-program for Drawing bot, og de har i et løftet sløret for teknologien bag i et paper der er udgivet ved Cornell University i USA.

Den nye teknologi, der er drevet af kunstig intelligens og er fortsat under udvikling, ser på individuelle ord, når der skabes billeder fra tekst.

Programmet kan generere billeder af alt fra klassiske scener med græssende dyr, til mere absurde situationer med en flyvende dobbeltdækkerbus. Hvert billede indeholder detaljer der ikke indgår i den tekst som tegneprogrammet har fået leveret.

»Hvis du går på Bing og søger efter en fugl, så får du et fuglebillede. Men her er billedet skabt af computeren, pixel for pixel helt fra bunden. De her fugle findes ikke i den virkelige verden. De er blot en del af computerens forestilling om fugle,« siger Xiadong He, forskningsleder
ved Deep Learning Technology Center hos Microsoft’s research lab i Redmond, Washington i et blogindlæg hos Microsoft.

Læs også: AI kan reparere og gøre slørede billeder skarpe

To modeller kæmper

Tegneprogrammet kommer i forlængelse af et udviklingsarbejde mellem computer vision og sprogprocessering som Microsoft har arbejdet med i en del år.

Tidligere har udviklingsholdet lavet CaptionBot, der automatisk skriver billedtekster til billeder, ligesom de har udviklet AI-modeller der besvarer spørgsmål om konkrete billeder, fx lokation, objekter, hvilket kan være brugbart for eksempelvis blinde.

Kernen i Microsofts tegne-bot er Generative Adversarial Network(GAN). Det er et netværk der består af to machine learning modeller, en der generer billeder fra tekstbeskrivelser og en anden der kaldes diskriminatoren, der bruger tekstbeskrivelser til at vurderer autenticiteten af de genererede billeder.

Den genererings-modellen forsøger at få falske billeder forbi diskrimatoren, som omvendt forsøger at presse genereringsmodellen til at lave så optimale billeder som muligt.

Tegne-programmet er trænet med datasæt der indeholder billeder og tekster der er parret, så modellen kan lære at matche ord med den visuelle repræsentation af ordene.

GAN-netværket fungerer fint når den skal generere billeder fra simple tekstbeskrivelser, fx blå fugl, eller et grønt træ, men kvaliteten dalen i takt med at kompleksiteten stiger, da det er hele sætningen, der fungerer som input til GAN-netværket.

Så når man skriver en fulg med en grøn krone, gule vinger og en rød mave, så bliver kvaliteten ikke så god, da de detaljerede informationer går tabt i beskrivelsen og billedet bliver eksempelvis mere uskarpt.

Skal hjælpe filmproducenter

Tegneprogrammet forsøger at efterligne den menneskelige måde at tegne på ved at dele ordene op i forskellige afsnit af billedet.

Det kaldes attentional GAN, eller AttnGAN, som matematisk repræsenterer det menneskelige koncept opmærksomhed.

»Opmærksomhed er en menneskelig koncept og vi bruger så matematik til at gøre opmærksomhed til en beregning, «siger Xiandon He.

P.t er teknologien endnu ikke funktionel, og når man ser tættere på billederne, vil man stort set hver gang se fejl.

Ifølge Microsoft er AttnGAN-billeder dog alligevel tre gange bedre end de forrige GAN-netværk.

På sigt håber Microsoft at deres tegne-bot kan bruges til at assistere malere eller hjælpe filmproducenter ved at tegne animerede scener baseret på et manuskript.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (0)
Log ind eller Opret konto for at kommentere
Pressemeddelelser

Welcome to the Cloud Integration Enablement Day (Bring your own laptop)

On this track, we will give you the chance to become a "Cloud First" data integration specialist.
15. nov 2017

Silicom i Søborg har fået stærk vind i sejlene…

Silicom Denmark arbejder med cutting-edge teknologier og er helt fremme hvad angår FPGA teknologien, som har eksisteret i over 20 år.
22. sep 2017

Conference: How AI and Machine Learning can accelerate your business growth

Can Artificial Intelligence (AI) and Machine Learning bring actual value to your business? Will it supercharge growth? How do other businesses leverage AI and Machine Learning?
13. sep 2017