Andreas Kirkedal

Google vil igen transskribere lydfiler fra stemmeassistent

Fint - gælder det også os, som ikke selv har den slags, men som kan være blevet aflyttede via andres overvågningsdimser?

Det vil jo kræve at google kan genkende dig og din stemme og så skal de lave en profil af dig. Det er ikke lige det man ønsker...

25. september 2019 kl. 13:05
Mens du venter på en chatbot der virker

Hej Johnny

Jeg synes du har en god pointe i at man skal have en god struktur og søgemaskine, så man kan finde information på sin hjemmeside, men du bekræfter mit indtryk af, at du er en halvstuderet røver, når du påstår at NLP hører under kunstig intelligens.

Alternativt går den søgemaskine du bruger kun tilbage til ca. 2006 og har brug for at blive tunet.

NLP har i lang tid været regelbaseret og det meste velfungerende kommercielle NLP er en blanding af regelbaserede og statistiske NLP modeller.

Derudover kan jeg nævne at konceptet 'stopord' kommer fra NLP (aka computational linguistics) og selvom der er mange generelle stopord på et sprog er der som regel fag-/domænespecifikke stopord, som man skal finde med en termfrekvensanalyse. Det samme holder i mindre grad for synonymer.

Søgning kan koges ned til at man gerne vil matche en søgestreng til et dokument. Klassisk vægter man ordene i et dokument med f.eks. TF-IDF (Term Frequency-Inverse Document Frequency) og man behandler søgestrengen på samme måde for at lave et match mellem dokument og søgestreng i en vector-space model. TF-IDF har rødder i NLP og information retrieval.

Jeg synes din pointe om at gøre en hjemmeside 'mere søgbar' er god, men du bør forbedre dit kendskab til NLP. En god begynderbog er https://web.stanford.edu/~jurafsky/slp3/

25. september 2019 kl. 12:59
EU's regelsæt for AI

Hvis du ikke kender til dem allerede synes jeg der dukker interessante løsningsforslag til hvordan man machine learning modeller på følsomme data fra TF Encrypted og OpenMined.org

14. august 2019 kl. 14:01
Mandagsgnavpotten: The Psychopathology of ... stavekontrol

Skrevne sprog er i udgangspunktet uendelige fordi nye ord dukker op hele tiden pga. låneord, nye opfindelser/opdagelser eller - som i dansk, tysk m.fl. - nye sammensatte ord.

Vi kan på dansk spontant opfinde nye ord, som en stavekontrol aldrig har set før, men som er grammatisk korrekte, f.eks. hvedemarkssammenlægningsomkostninger som med garanti ikke står i nogen ordbog, men som danskere forstår med det samme.

Det er en kombinatorisk udfordring, der ikke lige findes en løsning på og som ikke vil findes af store udenlandske firmaer, fordi vores sprogområde er for lille. Tilnærmelsen er en statistisk model, hvor det med garanti oftere er en fejl at skrive same i stedet for samme.

Derudover er dansk langtfra det sprog med flest udfordinger ifm. stavekontrol. Finsk er meget værre.

11. juni 2019 kl. 09:00
Chatbotten spiser mennesker

Yann LeCun omtaler niveauet for AGI og ikke chatbots, hvilket du ikke skelner mellem i dit indlæg.

24. maj 2019 kl. 22:14
Voldsom kritik af Googles kunstige intelligens: Det meste er hype

Tak for en god diskussion.

8. august 2018 kl. 09:49
Voldsom kritik af Googles kunstige intelligens: Det meste er hype

Jeg mener at vi har samme svagheder som Dr. Horton beskriver - det er derfor man laver replikations- og metastudier som er den egentlige 'videnskabelige diskussion'.

Jeg kan ikke se at ATEA-sagen er relevant for denne diskussion - der er langt større økonomisk incitament for at fuske med offentlige udbud end at fuske med fagfællebedømmelser/videnskabelige artikler og offentlige udbud er mig bekendt ikke belemret med videnskabelighed.

Konferencerne jeg har været involveret i arrangeres af et universitet. Universitetet vælger program/area chairs/committee og derefter kommer forskellige sponsorater ind. Jeg ved ikke hvordan interesseorganisationer finansieres i detaljer, men jeg går ud fra at det bl.a. er sponsorater. 'Vid udstrækning' ved jeg ikke.

8. august 2018 kl. 09:23
Voldsom kritik af Googles kunstige intelligens: Det meste er hype

Du kan f.eks. se artikler her: ACL, NIPS og Interspeech. Du kan også søge artikler samlet gennem Google Scholar eller Semantic Scholar.

Konfernecerne er ikke billige at deltage i og det er en anden problemstilling.

8. august 2018 kl. 08:12
Voldsom kritik af Googles kunstige intelligens: Det meste er hype

Du har adgang til disse konferencer - det har alle. Reviewere udvælges af area/program chairs og de udskiftes mellem konferencer. Der er en del gengangere blandt reviewere, men det er mig bekendt ikke muligt at købe sig til en reviewopgave. Man kan godt købe sig til udgivelse i et tidsskrift, men svjv kun i dem vores community der ikke har impact.

Jeg argumenterer ikke for at vi skal lægge samfundsudviklingen i hænderne på private firmaer, men at de også har en plads i udviklingen.

Det er problematisk at vurdere forskning uden adgang til de samme resourcer som forfatteren, men man finder sig i det fordi som samfundet er skruet sammen i dag er det ikke noget vi kan ændre. Data er meget værd og ofte underlagt restriktioner der gør at de ikke må deles. Informanter skriver under på en kontrakt om at deres data må bruges til et specifickt og afgrænset formål når data indsamles på offentlige forskningsinstitutioner og hos firmaer er data en konkurrencefordel som ikke må deles. Traditionen tilbage i forskningen har helle rikke været at dele data (dog fordi det var bøvlet at distribuere). F.eks. er taledata per definition personhenførbare og må ikke deles uden samtykke og det kan man ikke indhente hver gang man skal skrive en artikel. Så vi er ligesom alle andre i en uperfekt verden nødt til at klare os med et kompromis mellem transparans og praktiske muligheder.

Jeg vil ikke forholde mig til artiklen på nrk.no - det er netop markedsføring fra IPsoft

8. august 2018 kl. 07:53
Voldsom kritik af Googles kunstige intelligens: Det meste er hype

Hvis du læser forskningen fra en peer-reviewed artikel fra specifikke konferencer behøver du ikke være særlig skeptisk og hvis du læser en gengivelse af resultaterne på en blog eller i et af de nævnte blade skal du være skeptisk. Det første er forskning, det andet er markedsføring og du vil også lægge mærke til forskelle hvis du sammenligner. Der er meget prestige i at få en artikel udgivet på en konference som ACL, NIPS, ICML, ICLR, Interspeech m.fl. fordi de er garant for kvaliteten og de har som regel en acceptrate omkring 20%.

En reviewer har ikke nødvendigvis adgang til den samme data som forfatteren eller samme software. Du har nogle gange kun artikelteksten at gå ud fra og den er ofte på engelsk, hvilket ikke er modersmålet for størstedelen af forfattere eller reviewere. Derfor er det svært at være reviewer, kan det være næsten umuligt at begrunde dybere end 'du har ikke overbevist mig', 'din metode er uklar', 'der mangler informationer om X', og der er problemer med muligheden for at rage uklar med andre forskere i magtfulde positioner på universiteter såvel som firmaer. Det kan være værre for en universitetsansat ikke at publicere, mens en erhvervsforsker bare kan arbejde på interne projekter - han får hverken mere eller mindre i løn for at udgive forskning.

7. august 2018 kl. 22:08
Voldsom kritik af Googles kunstige intelligens: Det meste er hype

Vi er nødt til at skelne mellem forskning og markedsføring. Forskningen fra Google er generelt af høj kvalitet, mens Googles markedsføringsafdeling er en meget effektiv hypemaskine der overdriver forskningsresultater.

Ang. review-risici: Forfattere og reviewere er mennesker som alle andre og kan også opføre sig dårligt. Hvis en artikelforfatter mener at en reviewer bare ikke fatter hvad han laver kan det afføde sådan reaktioner selvom det måske handler om dårlig kommunikation af kompliceret materiale. Det er også muligt at en reviewer ikke tror på resultaterne, eller at impact er høj nok til denne konference. Der er mange vurderinger og mange muligheder for at træde folk over tæerne. Til de meget prestigefyldte konferencer som ACL er acceptgraden meget lav fordi mange gerne vil publicere her og så kan det blive småting der gør at en artikel bliver afvist.

6. august 2018 kl. 20:26
Voldsom kritik af Googles kunstige intelligens: Det meste er hype

Jeg synes du antager at forskere er en flok idealister med uanet fritid - peer review tager lang tid og kan oftest ikke gøres som en del af arbejdet og når det eneste en reviewer vil få for sin indsats er risikoen for online bagvaskelse giver det simpelthen ikke mening for inidividet at bruge sin fritid på at kvaitetssikre andre folks forskning.

Derudover refererer denne artikel til Rachel's blog, Google's markedsføring, Wired og andre unævnte journalister - ikke videnskabelige artikler.

6. august 2018 kl. 19:10
Voldsom kritik af Googles kunstige intelligens: Det meste er hype

Men hvem vil være reviewer i det scenarie - hvad får de ud af det?

6. august 2018 kl. 15:11
Voldsom kritik af Googles kunstige intelligens: Det meste er hype

Det stiller større krav til reviewere fordi eventuelle fejl i reviews kan de klandres for senere eller hvis de bare har en anden mening. I forvejen er det et sølle job at være reviewer for der er meget lidt anerkendelse og ingen kompensation for indsatsen og en sur forfatter kan hænge en reviewer ud på sociale medier med sin egen subjektive vinkel hvis reviewers identitet er kendt.

6. august 2018 kl. 14:24
Voldsom kritik af Googles kunstige intelligens: Det meste er hype

Konferencedeltagelse er ikke gratis, men adgang til konferencebidrag er. Så alle der kan læse en PDF kan tilgå forskningen kvit og frit.

Der er som regel 2-3 reviewere, 1 area chair og/eller 1 program chair per artikel. Forfattere kan klage til area chair og til program chair hvis de mener en artikel ikke er bedømt korrekt. Det er ikke mit indtryk at vi har et problem med uvildighed blandt reviewere, men vi et problem med kvaliteten af reviews pga. feltets vokseværk og skidt kan slippe igennem på denne måde. Det er et problem som bliver aktivt diskuteret, men ikke-anonyme reviews, hvor reviewer kender identiteten på forfatter, favoriserer klart kendte navne/institutioner. Så en god løsning mangler

6. august 2018 kl. 12:21
Voldsom kritik af Googles kunstige intelligens: Det meste er hype

Jeg synes Rachel Thomas generelt er fornuftig, men artiklen burde også anføre at hun er proponent for transfer learning lidt i samme dur som Google er for 'AutoML' - det bygger Fast.ai grundlæggende på og de har også deres egen algoritmer til at automatisere deep learning som hedder LR range test/1cycle. Ligesom Rachel påpeger at AutoML ikke har vundet nogen offentlige konkurrencer endnu, hvilket er et ret snævert fokus i min mening, mangler transfer learning også at bevise sin effektivitet indenfor talegenkendelse.

6. august 2018 kl. 10:22
Voldsom kritik af Googles kunstige intelligens: Det meste er hype

Vi bruger videnskabelige konferencer i stedet for tidsskrifter fordi det tager for lang tid at udgive og i en hvis grad fordi man skal betale for adgang til artiklen. Den artikel man sender til et tidsskrift vil som regel være tæt på forældet når den udkommer eller en anden forsker vil have udgivet lignende/identisk forskning til en konference. Konferenceartiklerne er fagfællebedømt og både forfattere og reviewere er anonyme for ikke at favorises 'store' navne eller universiteter. Machine learning har også en hvis tradition for open access og vil ikke 'aflevere' deres forskning til f.eks. Elsevier for at de kan tjene penge på forskernes hårde arbejde og der har været stor modstand mod det nye tidsskrift Nature Machine Intelligence af den grund. De vigtigste tiddskrifter i mit underfelt er Journal of Machine Learning Research (JMLR) og Transactions of ACL (TACL) som begge er open access.

6. august 2018 kl. 10:15
Dataetik på Dansk

Jeg mener det bestemt er relevant at stille os selv de spørgsmål og det kan du stadig nå. Kunstig intelligens er ikke en realitet endnu: det er kun muligt at imitere intelligens.

4. maj 2018 kl. 13:00
Dataetik på Dansk

Mht. til talegenkendelse og kvinder er der en teknisk årsag som er forklaret herJa, svaret er altid mere/bedre data og øget diversitet er et åbenlyst modsvar, men det kan 1) være en udfordring at finde ud af at man mangler diversitet (ikke i dine eksempler) og 2) svært og dyrt at finde data til at dække diversiteten. Jeg er enig i at der skal være krav om explainability og det jeg håber kan komme ud af gruppen er et bud på de krav for jeg tror på et tidspunkt at de krav vil kunne blive opfyldt for neurale net.

1. maj 2018 kl. 00:02
Dataetik på Dansk

Uanset at jeg deler nogle af de betænkeligheder som andre giver udtryk vil jeg gerne opfordre til at udvide 'Bias i Feature engineering' til også at omfatte de mere subtile former for bias der er i data. F.eks. hvis man træner et system til at vurdere jobkandidater til en programmørstilling på historiske ansættelsesdata fra de sidste 30 år kan man sagtens forestille sig at mænd vil få en højere score end kvinder pga. den skæve fordeling mellem køn i branchen. En vigtig pointe her er også at selvom man ikke må inkludere køn i vurderingen kan der være signaler i andre features der korrelerer næsten 1:1 med køn. Den næste opfordring er at eksplicitere gennemsigtighedskravene til en model. Der forskes aktivt i analysen af deep learning modeller med LIME som et udemærket eksempel og hvis nogle krav/opfordringer kan give en rettesnor for udviklingen. Sidst, men ikke mindst bør der også være en guide til hvordan man bedst (etisk+juridisk) overholder GDPR for startups/hobby/garageprojekter.

30. april 2018 kl. 15:53