Finn Aarup Nielsen

Tillykke med de 50 DIKU...

Man kan få et overblik over DIKU's forskning med de data der ligger i Wikidata og som vi viser med Scholia via SPARQL-forespørgsler. DIKU's side på Scholia er her: https://scholia.toolforge.org/organization/Q5260205

Det er begrænset hvad der er i Wikidata. Det meste information er fra PubMed og citeringer er mest fra CrossRef, så der er en forrykkelse mod medicinsk forskning og datalogisk forskning er ikke repræsenteret særlig godt. Det er vel nok derfor at Marleen de Bruijne optræder med fleste arbejder.

Hvad jeg opdagede ved at modificere en af Scholias SPARQL-forespørgsler var at et af Edda Sveinsdottirs arbejder "Regional cerebral blood flow in man determined by intra-arterial injection of radioactive inert gas" er det mest citerede DIKU-arbejde ifølge Wikidatas stærkt begrænset citeringsdata. Resultatet er her: https://w.wiki/4N3Y

Udfra en hjerneforskningssynsvinkel var hjerneskanningssystemet som parret Niels Lassen og Edda Sveinsdottir udviklede også exceptionelt.

Jacob Gorm Hansen skriver ovenover om "Live Migration of Virtual Machines": "saa vidt jeg ved er den hoejest citerede datalogi-artikel udgivet fra noget dansk universitet". Jeg kan ikke umiddelbart finde andre DIKU-artikler der er så højt citeret på Google Scholar.

Serge Belongie og Ingemar J. Cox er eller har været tilknyttet DIKU. Flere af Belongies artikler har højere Google Scholar-citeringstal. "Microsoft coco: Common objects in context" har nærved 20.000 og Cox har op mod 10.000 for "Secure spread spectrum watermarking for multimedia", men for dem kan man vist ikke sige at de er DIKU-artikler. Lars Kai Hansens "Neural network ensembles" som måske kan kaldes en datalogi-artikel har over 5.000 Google Scholar citeringer, men skrevet mens han var i San Diego.

10. november 2021 kl. 12:14
Vi har sejret ad helvede til...

Jeg kan se at mit overstående eksempel jo ikke give mening. Det er blot en almindelig elementvis multiplikation. Den rigtig matrix multiplikation ligger med Numpy oppe på over to sekunder på min computer.

N=4096; A = np.random.random((N, N)); timeit.timeit(lambda: A@A, number=1) 2.1382109729966032

13. september 2021 kl. 19:55
Vi har sejret ad helvede til...

En matrix multiplikation af to kvadrat matricer (med sidelængde 4096) tog 7 timer i Python mod under et halvt sekund (0.5s) i C ved brug af "tiling" og vektorinstruktioner! Der var ikke luget ret meget død kode, men derimod skrevet mere kildetekst, som blev afviklet mere effektivt ved fornuftig brug af cachen.

Det må referere til et situation fra forrige årtusinde. En almindelig matrix-multiplikation kan gøres hurtigere, - omkring 25 millisekunder i Python:

  1. import numpy as np
  2. import timeit
  3. N=4096; A = np.random.random((N, N)); timeit.timeit(lambda: A*A, number=1)
  4. 0.02582312400045339

9. september 2021 kl. 13:37
Dansk hotelbooking betaler stor løsesum til ransomware-banditter: »Det var det første vi gjorde«

Problemet er at det er et våbenkapløb, så det at "have styr på backuppen" er et bevægeligt mål. Så vidt jeg forstår (udfra https://www.forbes.com/sites/forbestechcouncil/2021/03/03/backup-is-feeble-protection-against-ransomware/) så går de fleste ransomware-angreb også efter backuppen. Og hvis det er ikke blot er backupfilerne, kan det være efter backupsystemet, således at offline backup, båndbackup, eller hvad det nu er, skal integritetstjekkes konstant og man skal sikre sig at dette integritetssystem heller ikke bliver angrebet.

Det tager lang tid at reetablere systemerne. I gennemsnit over 16 dage nævnes her https://www.coveware.com/blog/2020/1/22/ransomware-costs-double-in-q4-as-ryuk-sodinokibi-proliferate

Derudover er kryptering kun et element af ransomware. Angriberen kan også få adgang til privat og industrihemmelig information hvor trusler om læk kan indgå som en del af afpresningen.

14. juni 2021 kl. 14:00
8 jurister skaber kaos i IT verdenen

Jeg må sige at jeg er ikke ekspert i API-design, men jeg har på fornemmelsen at designe et godt API kan nok i nogle tilfælde kræve mere original hjernekraft end selve implementeringen.

Michi Henning har skrevet "API design matters" og skriver der "consider the importance of APIs such as the Unix system call interface, the C library, Win32, or OpenSSL. Any change in interface or semantics of these APIs incurs an enormous economic cost and can introduce vulnerabilities. It is irresponsible to allow a single company (let alone a single developer) to make changes to such critical APIs without external controls." https://queue.acm.org/detail.cfm?id=1255422

Joshua Bloch fra Google har i øvrigt skrevet "How to design a good API and why it matters", https://research.google/pubs/pub32713.pdf

11. oktober 2020 kl. 15:02
Leverandør efter udsendelse af trusselsbeskeder via Aula: Nogen har fået fat i brugernavn og adgangskode

"Lærerne har typisk en liste med elevernes adgangskoder, hvilket er praktisk i en undervisningssammenhæng"

Hvordan kan man forstå det? Hvis barnet har glemt adgangskoden ville det så ikke være mere relevant at læreren kunne skabe et nyt kodeord til barnet. I hvilke andre situationer er det nødvendigt for læreren at have en liste med kodeord?

20. november 2019 kl. 17:35
Arbejdsløse multimediedesignere spænder ben for flere datamatikere

Det er mit indtryk at der også problemer på humaniora. Sprogteknologi har efter hvad jeg forstår underledighed i forhold til resten af humaniora men slås i hartkorn.

1. august 2019 kl. 07:58
Teledataskandalen: Her er eksperterne, der skal kontrollere politiets gennemgang af tusindvis af sager

En der kan forklare de 5 andre, hvad teledata er, og hvordan logningen fungerer.

Kommissorium har følgende: "Herudover skal den uafhængige kontrol- og styregruppe have fuld adgang til at antage ekstern bistand (f.eks. it-eksperter)." KOMMISSORIUM for den uafhængige kontrol- og styregruppe i teledata-sagen

6. juli 2019 kl. 00:14
Ministeriet om snyd med vælgererklæringer: Systemdesignet burde have fanget det

Partiet skal sikre, at oplysninger om vælgeren behandles efter reglerne i persondataloven,

Kommer partierne der udnytter hullet overhovedet i forbindelse med persondata? Jeg kender ikke detaljerne i vælgererklæring.dk, men er det ikke sådan at partierne er i stand til at oprette et direkte link, således at persondata kun ligger på vælgererklæring.dk og ikke hos partiet? Hvis det er tilfældet kan "hul-partierne" jo ikke overtræde persondataloven.

8. maj 2019 kl. 14:41
Ophavsretsforsker om EU-direktiv: Svært at forudsige konsekvenserne

Google News er ofte nævnt som målet for Artikel 11 (nu Artikel 15), men vil det reelt være det?

Går jeg ind på https://news.google.com ser jeg udelukkende titler, udgiver og ingen snippets, - og linkerne går til amerikanske kilder med setting Engelsk og USA. Sætter jeg settings til Norsk, Norge får jeg norske kilder men stadig blot med titel og ikke en snippet.

Det er uklart om titlen er omfattet af Artikel 11: "The protection granted under the first subparagraph shall not apply to acts of hyperlinking." ifølge https://juliareda.eu/wp-content/uploads/2019/02/Copyright_Final_compromise.pdf Så man må godt hyperlinke, men omfatter hyperlinket ankerteksten som kunne være titlen?

Så medmindre Artikel 11 også forbyder for-profit brug af titlen ser jeg ikke hvordan Google News kan være omfattet af Artikel 11.

26. marts 2019 kl. 19:24
Europa-Parlamentet vedtager omstridt ophavsretsreform

Jeg synes vi har alt for mange brokkehoveder der piver om hvor svært det er at implementere Artikel 17 for virksomheder. Jeg kan da nemt implementere det. Her er koden som andre udviklere frit kan benytte:

  1. def ok_for_article_17(media):
  2. return False

26. marts 2019 kl. 17:37
Offentlige hjemmesider sladrer til Google og Facebook

Kommunen der har bestilt hjemmesiden kan umiddelbart besigtige varen. Det er ligetil for mig at se de sociale plugin. Er der en ikon på siden bør man tjekke at ikonen ikke kommer fra tredjepart. Ellers kan man se tredjepartsinkluderinger med pluginen Privacy Badger.

28. september 2018 kl. 07:33
EP-PE's kreative destruktion

EU's cookie-direktiv har været i gang siden 2009. For mig at se har det været stort set virkningsløs ifm. privatliv. Det eneste vi har set er de mange popup-vinduer der forstyret europæerens browsning. EU har ikke været i stand til at fjerne cookie-direktivet, så hvorfor skulle de ændrer når/hvis det viser sig at elementer i Alex Voss-forslaget er til skade for Europa. Har EU en tradition for at ændre dårlige it-direktiver?

13. september 2018 kl. 08:41
Voldsom kritik af Googles kunstige intelligens: Det meste er hype

"neurale netværk - tidens foretrukne teknologi indenfor maskinlæring"

Måske. Og måske ikke. Logistisk regression (regulariseret eller ej) og random forest er muligvis mere brugt end deep learning.

"Det er foregår på universiteter, som DTU, KU og mange andre universiteter (og offentliggøres i seriøse tidsskrifter), er forskning. Det er foregår i firmaer som Google, facebook og mange andre firmaer, er udvikling."

Det vil jeg mene er ukorrekt. Firmaer som Google og Facebook har store forskningsafdelinger der skriver videnskabelige artikler og sender dem til pretigefyldte videnskabelige konferencer, såsom NIPS. NIPS har dobbelt-blindet fagfællebedømmelse og burde således ikke være påvirket af affiliationsbias. Ser vi på hvad Google fik antaget til NIPS 2017 er det et ganske stort antal artikler: https://ai.googleblog.com/2017/12/google-at-nips-2017.html Jeg tæller 45 artikler. Tilsammenligning var der så vidt jeg kan se 2 artikler fra DTU Compute, se evt. https://tools.wmflabs.org/scholia/venue/Q39502823 hvor man kan se vores Ole Winther.

Forøvrigt er der ikke så meget maskinlæringsforskning der udgives i "seriøse tidsskrifter". Det meste bliver udgivet som konferencebidrag.

"Her er AutoML et godt eksempel på ny software, som i bund og grund blot automatisere nogle arbejdsopgaver for nogle ingeniører. Om det giver bedre neurale netværk ved vi faktisk ikke."

Udsagnet er lidt problematisk. Jeg er ikke inden i sagen, men læser man Rachel Thomas blog står der: "I don’t know of any widely-entered machine learning competitions that have been won using neural architectures search yet." Dvs. automatiseret deep learning synes ikke at have "slået" "gammeldags" deep learning - endnu.

"At forskning om AI burde ligge hos universiteterne, kan vi nok blive enige om"

Hvorfor i alverdenen må AI-forskningen ikke ligge i private firmaer? Google, Facebook og andre lignende firmaer har store forskningsafdelinger der skriver videnskabelige artikler og stiller Open Source maskinlæringsprogrammer tilrådighed. word2vec, fastText, TensorFlow er eksempler på maskinlæringsbaseret software fra sådanne firmaer, og sådanne programmer bliver overordentlig meget brugt af andre firmaer og universiteter, herunder DTU.

Læg også mærker til at der eksisterer firmaer som OpenAI som er et "non-profit AI research company". Læs mere her: https://en.wikipedia.org/wiki/OpenAI

Mange AI-forskere flyder mellem akademia og "det virkelige liv". Der er rigtig mange eksempler, f.eks.: Zoubin Ghahramani (Cambridge, Uber), Geoff Hinton (University of Toronto, Google Brain), Pieter Abbeel (OpenAI, Berkeley)

Forøvrigt mener jeg - som Rachel Thomas - at Google har "snuppet" ("co-opted") ordet "AutoML". For mig betyder AutoML stadig "mest" automatiseret maskinlæring, som man finder i f.eks. auto-sklearn og det er flere år gammelt. Den kanoniske auto-sklearn udgivelse er fra 2015 så vidt jeg kan se. https://automl.github.io/auto-sklearn/stable/

2. august 2018 kl. 22:17
Ung læge advarer om 'skræmmende' fejlramt søgefunktion i Sundhedsplatformen

Er der en doktor til stede, med adgang til Sundhedsplatformen?

Om en forespørgsel til "anæmi" skal expandes til "IDA" afhænger af om det er nyttigt for sundhedspersonalet. I MeSH is IDA under "Anemia", se https://www.ncbi.nlm.nih.gov/mesh/68018798, så på engelsk er det fint at ekspandere forespørgslen. Men lægerne skriver vel på dansk og eventuelt latin?

28. juni 2018 kl. 22:44
Undersøgelse: Hver 3. leder vil hellere betale til ransomware end investere i sikkerhed

"Analysis showing the percentage of respondents who agree that their organization would consider paying a ransom by a hacker rather than invest in security because it is cheaper, split by respondent country. "

Side 6 i https://www.nttsecurity.com/docs/librariesprovider3/default-document-library/gbl_report_risk-value_2018_us_uea_v1.pdf

"would consider" står der i figurteksten. Det betyder - i min læsning - ikke at den angivne procentdel af ledere hellere vil betale ransomwaren, fremfor at investere i it-sikkerhed.

27. juni 2018 kl. 13:01
Statsansatte har fået lækket navne, cpr-numre og funktioner på internettet
  1. Hvis det ligger i Google's cache, så kan jeg ikke se hvordan folk fra Danmark kan afgøre om data er "kommet til uvedkommendes kendskab". Udfra Google's snippet kan man jo læse lidt.

  2. Som jeg forstår på processerne hos Wikimedia, skal der to til at gennemfører ændring (udover en continuous integration Jenkins bot): Programmøren der committer og en reviewer via Gerrit-værktøjet. Så to skal dumme sig, - ikke at det er umuligt. Det er muligt at små udviklingshuse ikke kan gøre det.

  3. Hvis kunden har adgang til bug-tracking-systemet Jira (som Miracles skriver), kan det vel være meget svært at undgå at en kunden oploader følsom data. Man kan måske have CPR regexp filter, eller en (anden) form for moderator-funktion? Det kræver også en pædagogisk opdragelse af kunden.

20. juni 2018 kl. 13:47
Twitter og GitHub lagrede ellers hashede kodeord i klartekst. Gør du?

Findes der systemer der også hasher på klientsiden før den sendes til serveren? Det kunne give en smule ekstra beskyttelse: Kodeordet vil så ikke ligge i klartekst i en fejlagtig konfigureret serverlog og en person med adgang til kodeordsdatabase ville skulle baglæns igennem to hasher.

Problemet er vel at det kræver at Javascript kører på klienten.

7. maj 2018 kl. 11:22
Forvirring omkring deling af nøgenbilleder

“For dem er et billede ligesom et kærestebrev. Send lige et billede skat, så jeg har noget at drømme om, kan én sige til en anden. Det skaber et bånd mellem de unge, og et billede kan være en bekræftelse på, at vi kan lide hinanden,” siger Helle Rabøl Hansen. - https://gymnasieskolen.dk/deling-af-noegenbilleder-er-blevet-normalt-blandt-gymnasieelever

Her er det værd at bemærke at der er sager hvor billederne/videoerne er taget uden accept fra den der er afbilledet og spredt uden accept fra samme. Hør eventuelt denne udgave af DR P1 Shitstorm: https://www.dr.dk/radio/p1/shitstorm/shitstorm-20 Det er absolut ikke "ligesom et kærestebrev".

22. januar 2018 kl. 19:11
»Hvis jeg havde vidst det, havde jeg aldrig samarbejdet med Intel«

Nu når vi taler om kreditering ifm. med software, kunne vi også tale om kreditering af billeder fra Wikipedias mediearkiv.

Billeder og tekst på Wikipedia skrives ikke af Wikipedia, men af virkelige folk. Fotoet af Andrew Tanenbaum er taget af brugeren Jan Tångring (Jantangring, see https://commons.wikimedia.org/wiki/File:Andrew_S._Tanenbaum_2012.jpg) og frigivet under CC BY-SA 4.0 og GFDL 1.2. Som sådan skal ophavsmanden krediteres og licensen angives.

Under "Use this file" ser man et eksempel på en korrekt angivelse:

"By Jantangring (Own work) [CC BY-SA 4.0 (https://creativecommons.org/licenses/by-sa/4.0) or GFDL (http://www.gnu.org/copyleft/fdl.html)], via Wikimedia Commons".

Givet at fotoet er modificeret skal det nok også angives.

Det er muligt at man kan argumentere "Foto: Wikipedia" implicit angiver en ok kreditering. Det er dog ikke min holdning.

13. december 2017 kl. 14:13