Banker vil vurdere boligpriser med AI
Rettelse 07/10-2020 kl. 22.15: Tidligere stod der, at E-nettets AI-værktøj var trænet med ejendomsdata fra 8.000 bolighandler, og at Finanstilsynet havde givet to andre banker dispensation for AI-værktøjer. Det er begge fejl. Det er rettet til de korrekte 80.000 bolighandler, og at de to banker har fået dispensation for regressionsmodeller.
Opdateret 08/10-2020 med en præcisering og uddybning fra Michael Hald Graversen om, at der under en proces er opnået et godt samarbejde med Finanstilsynet og en metode til at beskrive E-nettets machine learning-model.
- emailE-mail
- linkKopier link

Fortsæt din læsning
- Sortér efter chevron_right
- Trådet debat
</p>
<p>I en regressionsmodel kan man ret præcist sige hvad der ligger til grund for den konkrete vurdering. Det er ikke mit indtryk man i Samme omfang kan dette med en ML-algoritme. K an nogen be-eller afkræfte dette?
En ML-algoritme kan typisk bruges til både regression eller klassifikation, så jeg antager at du tænker på klassiske (lineære) regressionsmodeller i det ovenfor citerede?
Du kan sagtens få fortolkbare modeller ud af en ML-algoritme (hvis min og din definition af en ML-algoritme er den samme).
De fleste træ-baserede modeller, er bare et træ (eller et ensemble af træer) bestående af "regler". Denne træ-struktur kan du printe ud og kigge på, som var det et flow-chart. Dvs. du kan sige helt præcist hvad der ligger til grund.
For neurale netværk med flere lag, har du nogle vægte og nogle aktiverings-funktioner, så der bliver det straks mere langhåret at fortolke "modellen" (dvs. vægtene og de forskellige lag). Konceptuelt er det "bare" lag-på-lag af logistisk regression, med dertil hørende non-linearitet. Jo flere lag og jo mere non-lineære aktiverings-funktioner, jo sværere at fortolke.
Kort sagt: Man kan godt lave maskin-trænbare modeller, der kan forklare hvorfor de når frem til et bestemt resultat. Man kan også lave det modsatte.
Typen af din model er typisk dét der afgør graden af fortolkbarhed. Kompleksitet og nonlinearitet gør det typisk sværere at fortolke outputtet.
Tror du har ret, jeg har i hvertfald hørt om kompetente matematikere der har brugt lang til på at prøve og forstå hvad der rent faktisk sker. Ofte giver det meget mere mening at se et neuralt netværk visuelt, da der foregår noget der minder meget om vores egen måde at lave klassificering på. Jeg tror du kan sammenligne det lidt med kryptering, det er forholdsvis let at gå den ene vej, men meget svært at gå retur i regnestykket.
I en regressionsmodel kan man ret præcist sige hvad der ligger til grund for den konkrete vurdering. Det er ikke mit indtryk man i Samme omfang kan dette med en ML-algoritme. K an nogen be-eller afkræfte dette?
For et par år tilbage, da ejendomsdata blev let tilgængelig, gjorde jeg mig også nogle overvejelser om dette (droppede heldig vis ideen ret hurtigt). Mængden af features bliver hurtig meget omfangsrig (det samme med de utilgængelige features). Eks. Udsigten på vores grund var aldrig nævnt i salgsopstillingen, det fremgik heller ikke tydeligt at det var elopvarmet. Post nummeret er heller ikke nok til at vurderer placering. Det er desuden ikke nok at benytte simpel image recognition, som bare konstaterer at det er et “hus”, “badeværelse” osv. Der skal også justeres for konjunkturer i forskellige landsdele hvor der måske ikke er samme afsætning (data) som i de større byer.
Men det er da prisværdigt at nogen tør at give sig i kast med sådan et projekt. Selvom det nok ville være lettere at forudsigelse udviklingen af cancer eller lign.
Ifølge artiklen er værktøjet trænet med data fra 8.000 bolighandler.
Baseret på et hurtigt udtræk fra https://www.dst.dk/da/Statistik/emner/priser-og-forbrug/ejendomme/ejendomssalg får jeg en total på 1.501.855 ejendomssalg i perioden 2006-2019.
Hvis disse tal er sammenlignelige (og jeg regner rigtigt) er deres model således trænet på et datasæt der udgør blot 0,53% af alle handler i perioden.
Det virker som et ret lille udsnit, men måske er det succeskriteriet på de 80% +/-20% der bør give anledning til løftede øjenbryn?
Og det kan trækkes sammen og gøres mere mundret: Øffelse.hvad det reelt er; if og else. Det afmystifierer nok løsningen.
De kunne starte med at stoppe med at kalde det AI, og kalde det hvad det reelt er; if og else. Det afmystifierer nok løsningen.
udeblivelsen af vurderingen i 3013
Profetisk, men desværre meget sandsynligt.
/Henrik (som er 56 og regner med at være gået på pension og have solgt sit hus inden der kommer nye ejendomsvurderinger).
Men Finanstilsynet forstår ikke helt machine learning. De tror, at det er voodoo eller sort magi.
@Michael Hald Graversen, kan du ikke beskrive i lidt mere detaljeret punktform hvorledes I har modelleret jeres AI, så vi kan reducere mistroen til modellen?
Vi er allesammen med på at statistik er et godt værktøj, men der er en forståelig skepsis, fordi naive implementeringer af "AI" medfører groteske konsekvenser.
Alligevel rammer algoritmen for 80 procent af ejendommene præcist med +/- 20 procent.
Hvor galt rammer algoritmen med de resterende 20% af algoritmen?
Kan du give eksempler på worst case estimater fra modellen?
Hvad synes du selv modellens svagheder er?
Hvor er modellen stærkere end manuelle vurderinger, udover at den er hurtigere?
Tager modellen hensyn til naboejendommens vurdering?
Jeg formoder at modellen tager et input I (tekst, geo, fotos, etc.) og leverer et output O, som er en estimeret salgspris. Det betyder at med adgang til modellen, kan man probe inputrummet, så man kan estimere gradienten af den estimerede salgspris dI/dO(I).
Modellen kan således ikke undgå også at besvare, hvorledes man kan forøge den estimerede salgspris. Hvordan forholder man sig til denne "angrebs-vektor"?
Er modellen open source, så vi kan kigge med eller er den hemmelig, lidt ligesom voodoo er?
"præcist med +/- 20 procent" ! Er det udviklet i Danskes Estonia filial?
Intet af det juks der idag kaldes "AI" er i stand til at forklare eller dokumentere hvorfor resultatet er som det er.
Decision Trees (til klassifikation/regression) som fx anvendt i Random Forest/Boosting/Bagging er sgu temmelig nemme at forklare og forstå.
Support Vector Machines laver rene lineære modeller, som du kan regne på i hånden bagefter hvis du vil.
Enig for såvidt angår neurale netværk, men ellers synes jeg det er en lidt sort/hvid udmelding Poul-Henning.
Efter 15 tilsidesættelse af gældende lov og Grundloven er der stadig ikke kommet en løsning fra Skat, og der er fortsat stor usikekrhed om de rkommer noget om 4 år altså næsten 20 år bagud. Tilmed skal borgerne fratages klagemulighed hvis afvigelsen er +- 20 procent. Dvs. hus som er vurderet kr. 800.000 og 1.200.000 vurderes ens. Det betyder at det ene er 50% dyrere end naboen og alligevel kan der ikke klages. Jeg tror de fleste vil sige at 50% diskriminering er helt utroværdigt.
Det med dokumentation af vurderingerne ser Skat stort på. De har simplethen ikke en forklaring. I 2011 steg det hele 49% selvom samfundsudviklingen var på niveau 3%. Alle klager er udelukkende afvist pga. en tåbelig og urimelig tidsfrist. udeblivelsen af vurderingen i 3013 var i strid med loven. Folketinget vedtager så et stop med tilbagevirkende kraft. Hvordan skal borgerne så kunne klage i tide? (nej vel)
Så man kan også argumentere at alt andet er bedre end det Skat præsterer godt hjulpet af et grådigt Finansministerium.
Databeskyttelsesloven fastlægger, at du har ret til ikke at være genstand for en afgørelse, der alene er baseret på automatisk behandling
Det er faktisk mere fundamentalt end som så: Forvaltningsloven sikrer at du altid får at vide hvorfor afgørelsen er taget som den er.
Intet af det juks der idag kaldes "AI" er i stand til at forklare eller dokumentere hvorfor resultatet er som det er.
Jeg kan ikke forstå at Finanstilsynet ikke simpelthen har henvist til at Skat har prøvet i årevis uden at få det til at virke ?
Mon ikke nærmere deres betænkning ligger i uforklarligheden. Hvis vi tager to tilfældige ejendomme, mon så E-Nettet kan forklare præcis hvorfor de har netop den vurdering de har?
Enig og så kan det også være på grund af:
Databeskyttelsesloven fastlægger, at du har ret til ikke at være genstand for en afgørelse, der alene er baseret på automatisk behandling, hvis beslutningen har retsvirkning eller på tilsvarende måde påvirker dig betydeligt. En afgørelse har retsvirkning, når den påvirker dine juridiske rettigheder (som for eksempel din stemmeret). Desuden kan behandling af personoplysninger påvirke dig betydeligt, hvis det har indflydelse på dine forhold, din adfærd eller dine valg. For eksempel kan automatisk behandling af personoplysninger føre til, at din onlineansøgning om kredit afvises.
<a href="https://ec.europa.eu/info/law/law-topic/data-protection/reform/rights-c…;
Det lyder noget nedladende at mene at finanstilsynet er for dumme til at forstå machine learning. Mon ikke nærmere deres betænkning ligger i uforklarligheden. Hvis vi tager to tilfældige ejendomme, mon så E-Nettet kan forklare præcis hvorfor de har netop den vurdering de har?