Billedredigering med deep learning: Fjern så mange fejlkilder som muligt

Illustration: Esoft
Fynske Esoft er i færd med at udvikle en GAN-model, der kan redigere billeder og blandt andet fjerne magneter fra køleskabe og ledninger fra gulvet.

Magneter på køleskabet, ledninger på gulvet og en stor sort regnsky på himlen er ikke højt på listen over ting, der sælger huse.

Danske Esoft, der sælger billeder og tekster til ejendomsmæglere, har derfor specialiseret sig i at tilføje en blå himmel og fjerne det uønskede rod fra boligbilleder, inden de kommer på salgsannoncen.

Det praktiske Photoshop-arbejde er outsourcet til Esofts vietnamesiske selskab med over 500 ansatte. Men det giver udfordringer, når man som Esoft gerne vil skalere, fortæller chef for research & development Kasper Grud Skat Madsen.

»Vi vil gerne udvide til flere markeder. Og så er vi nødt til at gøre noget anderledes, for vi kan ikke få de mennesker, der skal bruges,« forklarer han.

Derfor har Esoft store forventninger til avanceret dataanalyse. Selskabet ligger inde med enorme datamængder, der efter planen skal danne grundlag for en håndfuld tjenester, som selskabet i fremtiden vil udstille til Esofts kunder via et API.

Tjenesterne kan f. eks. inkludere automatisk tekst til beskrivelse af ejendomme og genkendelse af objekter i billeder – og til automatisk billedredigering, som Kasper Grud Skat Madsen har arbejdet på siden august.

Her gik han først sammen med sit hold i gang med at undersøge, hvor langt de kunne komme alene ved at bruge nogle af de mange tilgængelige Photoshop-plugins.

»Man kan komme et godt stykke den vej, men vi fandt også en hulens masse begrænsninger. Og så var det naturligt at gå videre med GAN-modeller,« siger Kasper Grud Skat Madsen.

For meget information

GAN – der står for Generative Adversarial Networks – er en teknik, der sammensætter to neurale netværk: en generator og en diskriminator.

Ideen er at træne generatoren til at producere den ønskede data – i dette tilfælde et redigeret boligfoto – og træne diskriminatoren til at genkende et redigeret billede. På den måde kan de to netværk træne hinanden. Teknikken er ofte brugt i forbindelse med billeddata – som DataTech blandt andet har skrevet om her.

»Den måde, jeg altid vil gå til en sådan opgave på, er at kigge i litteraturen og finde ud af, hvad der er state of the art - det bedste, man kan lige nu,« fortæller Kasper Grud Skat Madsen, der har en ph.d. i distribuerede databaser.

Gennem litteraturen fandt han en open source GAN-løsning, som holdet brugte til at bygge en proof of concept-løsning.

Det er dog ikke så simpelt som at fodre modellen med henholdsvis behandlede og ubehandlede billeder, forklarer Kasper Grud Skat Madsen.

»I starten forsøgte vi at bruge hele billeder, og det det gik hurtigt op for os, at det ikke kommer til at fungere,« siger han og fortsætter:

»Vi kan ikke bare give dem de to billeder og lade modellen lære det hele. Der er for meget information i billederne til, at modellen ved, hvad den skal fokusere på.«

Skær kompleksitet fra

I stedet for den egentlige data tog Kasper Grud Skat Madsen og hans kolleger fat i et simpelt datasæt bestående af geometriske figurer i forskellige farver.

»Vi har brug for at fjerne fejlkilder. Og det kan for eksempel være, hvordan en skygge falder på billedet. Ved at køre med geometriske figurer uden skygger behøver vi ikke at håndtere den kompleksitet her i starten,« forklarer han.

Med et simpelt datasæt kan data scientisten følge med i, hvordan GAN-modellen bliver forbedret, efterhånden som den træner - som nedenstående billeder demonstrerer.

Illustration: Esoft
Illustration: Esoft

Denne artikel stammer oprindeligt fra vores PRO-site, DataTech, hvor du kan læse meget mere om, hvordan Esoft træner deres GAN-model, hvordan modellen redigerer delene hver for sig og hvordan hele billede til sidst bliver samlet.

Du kan få tre ugers prøveabonnement lige her.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (7)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Thomas Brodersen

"at tilføje en blå himmel og fjerne det uønskede rod fra boligbilleder, inden de kommer på salgsannoncen."

Jeg synes at retoucherede salgsfotos på boligannoncer er en uskik. Lige nu er det farven på himlen, man retoucherer, men hvad bliver det næste? Af fjerne uskønne elementer som skorstene og vindmøller i baggrunden? Justere hudfarven på personer på billedet? Farven på huset? Putte ekstra buske og træer i haven? Tilføje små fugle og andre søde dyr i buskadset?

Og kan man komme efter sælger eller ejendomsmægler for falsk varebetegnelse, hvis virkeligheden så ikke lever op til idealerne?

Bjarne Nielsen

Nu vil jeg tro, at de fleste først vælger at købe et hus efter en forudgående fremvisning, så der er vel grænser for, hvor meget det billede kommer til at betyde.

Og mon ikke det regulerer sig selv ... hvis billeder (og tekst) bliver for urealitisk, så får mægler bare ekstra arbejde med forgæves fremvisninger ... indtil han slet ingen fremvisninger får, fordi potentielle købere simpelthen giver op på ham.

Log ind eller Opret konto for at kommentere
Pressemeddelelser

Welcome to the Cloud Integration Enablement Day (Bring your own laptop)

On this track, we will give you the chance to become a "Cloud First" data integration specialist.
15. nov 2017

Silicom i Søborg har fået stærk vind i sejlene…

Silicom Denmark arbejder med cutting-edge teknologier og er helt fremme hvad angår FPGA teknologien, som har eksisteret i over 20 år.
22. sep 2017

Conference: How AI and Machine Learning can accelerate your business growth

Can Artificial Intelligence (AI) and Machine Learning bring actual value to your business? Will it supercharge growth? How do other businesses leverage AI and Machine Learning?
13. sep 2017
Jobfinder Logo
Job fra Jobfinder