Man kan få et overblik over DIKU's forskning med de data der ligger i Wikidata og som vi viser med Scholia via SPARQL-forespørgsler. DIKU's side på Scholia er her: https://scholia.toolforge.org/organization/Q5260205
Det er begrænset hvad der er i Wikidata. Det meste information er fra PubMed og citeringer er mest fra CrossRef, så der er en forrykkelse mod medicinsk forskning og datalogisk forskning er ikke repræsenteret særlig godt. Det er vel nok derfor at Marleen de Bruijne optræder med fleste arbejder.
Hvad jeg opdagede ved at modificere en af Scholias SPARQL-forespørgsler var at et af Edda Sveinsdottirs arbejder "Regional cerebral blood flow in man determined by intra-arterial injection of radioactive inert gas" er det mest citerede DIKU-arbejde ifølge Wikidatas stærkt begrænset citeringsdata. Resultatet er her: https://w.wiki/4N3Y
Udfra en hjerneforskningssynsvinkel var hjerneskanningssystemet som parret Niels Lassen og Edda Sveinsdottir udviklede også exceptionelt.
Jacob Gorm Hansen skriver ovenover om "Live Migration of Virtual Machines": "saa vidt jeg ved er den hoejest citerede datalogi-artikel udgivet fra noget dansk universitet". Jeg kan ikke umiddelbart finde andre DIKU-artikler der er så højt citeret på Google Scholar.
Serge Belongie og Ingemar J. Cox er eller har været tilknyttet DIKU. Flere af Belongies artikler har højere Google Scholar-citeringstal. "Microsoft coco: Common objects in context" har nærved 20.000 og Cox har op mod 10.000 for "Secure spread spectrum watermarking for multimedia", men for dem kan man vist ikke sige at de er DIKU-artikler. Lars Kai Hansens "Neural network ensembles" som måske kan kaldes en datalogi-artikel har over 5.000 Google Scholar citeringer, men skrevet mens han var i San Diego.
Jeg kan se at mit overstående eksempel jo ikke give mening. Det er blot en almindelig elementvis multiplikation. Den rigtig matrix multiplikation ligger med Numpy oppe på over to sekunder på min computer.
N=4096; A = np.random.random((N, N)); timeit.timeit(lambda: A@A, number=1) 2.1382109729966032
Det må referere til et situation fra forrige årtusinde. En almindelig matrix-multiplikation kan gøres hurtigere, - omkring 25 millisekunder i Python:
import numpy as np import timeit N=4096; A = np.random.random((N, N)); timeit.timeit(lambda: A*A, number=1) 0.02582312400045339
Problemet er at det er et våbenkapløb, så det at "have styr på backuppen" er et bevægeligt mål. Så vidt jeg forstår (udfra https://www.forbes.com/sites/forbestechcouncil/2021/03/03/backup-is-feeble-protection-against-ransomware/) så går de fleste ransomware-angreb også efter backuppen. Og hvis det er ikke blot er backupfilerne, kan det være efter backupsystemet, således at offline backup, båndbackup, eller hvad det nu er, skal integritetstjekkes konstant og man skal sikre sig at dette integritetssystem heller ikke bliver angrebet.
Det tager lang tid at reetablere systemerne. I gennemsnit over 16 dage nævnes her https://www.coveware.com/blog/2020/1/22/ransomware-costs-double-in-q4-as-ryuk-sodinokibi-proliferate
Derudover er kryptering kun et element af ransomware. Angriberen kan også få adgang til privat og industrihemmelig information hvor trusler om læk kan indgå som en del af afpresningen.
Jeg må sige at jeg er ikke ekspert i API-design, men jeg har på fornemmelsen at designe et godt API kan nok i nogle tilfælde kræve mere original hjernekraft end selve implementeringen.
Michi Henning har skrevet "API design matters" og skriver der "consider the importance of APIs such as the Unix system call interface, the C library, Win32, or OpenSSL. Any change in interface or semantics of these APIs incurs an enormous economic cost and can introduce vulnerabilities. It is irresponsible to allow a single company (let alone a single developer) to make changes to such critical APIs without external controls." https://queue.acm.org/detail.cfm?id=1255422
Joshua Bloch fra Google har i øvrigt skrevet "How to design a good API and why it matters", https://research.google/pubs/pub32713.pdf
"Lærerne har typisk en liste med elevernes adgangskoder, hvilket er praktisk i en undervisningssammenhæng"
Hvordan kan man forstå det? Hvis barnet har glemt adgangskoden ville det så ikke være mere relevant at læreren kunne skabe et nyt kodeord til barnet. I hvilke andre situationer er det nødvendigt for læreren at have en liste med kodeord?
Det er mit indtryk at der også problemer på humaniora. Sprogteknologi har efter hvad jeg forstår underledighed i forhold til resten af humaniora men slås i hartkorn.
En der kan forklare de 5 andre, hvad teledata er, og hvordan logningen fungerer.
Kommissorium har følgende: "Herudover skal den uafhængige kontrol- og styregruppe have fuld adgang til at antage ekstern bistand (f.eks. it-eksperter)." KOMMISSORIUM for den uafhængige kontrol- og styregruppe i teledata-sagen
Partiet skal sikre, at oplysninger om vælgeren behandles efter reglerne i persondataloven,
Kommer partierne der udnytter hullet overhovedet i forbindelse med persondata? Jeg kender ikke detaljerne i vælgererklæring.dk, men er det ikke sådan at partierne er i stand til at oprette et direkte link, således at persondata kun ligger på vælgererklæring.dk og ikke hos partiet? Hvis det er tilfældet kan "hul-partierne" jo ikke overtræde persondataloven.
Google News er ofte nævnt som målet for Artikel 11 (nu Artikel 15), men vil det reelt være det?
Går jeg ind på https://news.google.com ser jeg udelukkende titler, udgiver og ingen snippets, - og linkerne går til amerikanske kilder med setting Engelsk og USA. Sætter jeg settings til Norsk, Norge får jeg norske kilder men stadig blot med titel og ikke en snippet.
Det er uklart om titlen er omfattet af Artikel 11: "The protection granted under the first subparagraph shall not apply to acts of hyperlinking." ifølge https://juliareda.eu/wp-content/uploads/2019/02/Copyright_Final_compromise.pdf Så man må godt hyperlinke, men omfatter hyperlinket ankerteksten som kunne være titlen?
Så medmindre Artikel 11 også forbyder for-profit brug af titlen ser jeg ikke hvordan Google News kan være omfattet af Artikel 11.
Jeg synes vi har alt for mange brokkehoveder der piver om hvor svært det er at implementere Artikel 17 for virksomheder. Jeg kan da nemt implementere det. Her er koden som andre udviklere frit kan benytte:
def ok_for_article_17(media): return False
Kommunen der har bestilt hjemmesiden kan umiddelbart besigtige varen. Det er ligetil for mig at se de sociale plugin. Er der en ikon på siden bør man tjekke at ikonen ikke kommer fra tredjepart. Ellers kan man se tredjepartsinkluderinger med pluginen Privacy Badger.
EU's cookie-direktiv har været i gang siden 2009. For mig at se har det været stort set virkningsløs ifm. privatliv. Det eneste vi har set er de mange popup-vinduer der forstyret europæerens browsning. EU har ikke været i stand til at fjerne cookie-direktivet, så hvorfor skulle de ændrer når/hvis det viser sig at elementer i Alex Voss-forslaget er til skade for Europa. Har EU en tradition for at ændre dårlige it-direktiver?
"neurale netværk - tidens foretrukne teknologi indenfor maskinlæring"
Måske. Og måske ikke. Logistisk regression (regulariseret eller ej) og random forest er muligvis mere brugt end deep learning.
"Det er foregår på universiteter, som DTU, KU og mange andre universiteter (og offentliggøres i seriøse tidsskrifter), er forskning. Det er foregår i firmaer som Google, facebook og mange andre firmaer, er udvikling."
Det vil jeg mene er ukorrekt. Firmaer som Google og Facebook har store forskningsafdelinger der skriver videnskabelige artikler og sender dem til pretigefyldte videnskabelige konferencer, såsom NIPS. NIPS har dobbelt-blindet fagfællebedømmelse og burde således ikke være påvirket af affiliationsbias. Ser vi på hvad Google fik antaget til NIPS 2017 er det et ganske stort antal artikler: https://ai.googleblog.com/2017/12/google-at-nips-2017.html Jeg tæller 45 artikler. Tilsammenligning var der så vidt jeg kan se 2 artikler fra DTU Compute, se evt. https://tools.wmflabs.org/scholia/venue/Q39502823 hvor man kan se vores Ole Winther.
Forøvrigt er der ikke så meget maskinlæringsforskning der udgives i "seriøse tidsskrifter". Det meste bliver udgivet som konferencebidrag.
"Her er AutoML et godt eksempel på ny software, som i bund og grund blot automatisere nogle arbejdsopgaver for nogle ingeniører. Om det giver bedre neurale netværk ved vi faktisk ikke."
Udsagnet er lidt problematisk. Jeg er ikke inden i sagen, men læser man Rachel Thomas blog står der: "I don’t know of any widely-entered machine learning competitions that have been won using neural architectures search yet." Dvs. automatiseret deep learning synes ikke at have "slået" "gammeldags" deep learning - endnu.
"At forskning om AI burde ligge hos universiteterne, kan vi nok blive enige om"
Hvorfor i alverdenen må AI-forskningen ikke ligge i private firmaer? Google, Facebook og andre lignende firmaer har store forskningsafdelinger der skriver videnskabelige artikler og stiller Open Source maskinlæringsprogrammer tilrådighed. word2vec, fastText, TensorFlow er eksempler på maskinlæringsbaseret software fra sådanne firmaer, og sådanne programmer bliver overordentlig meget brugt af andre firmaer og universiteter, herunder DTU.
Læg også mærker til at der eksisterer firmaer som OpenAI som er et "non-profit AI research company". Læs mere her: https://en.wikipedia.org/wiki/OpenAI
Mange AI-forskere flyder mellem akademia og "det virkelige liv". Der er rigtig mange eksempler, f.eks.: Zoubin Ghahramani (Cambridge, Uber), Geoff Hinton (University of Toronto, Google Brain), Pieter Abbeel (OpenAI, Berkeley)
Forøvrigt mener jeg - som Rachel Thomas - at Google har "snuppet" ("co-opted") ordet "AutoML". For mig betyder AutoML stadig "mest" automatiseret maskinlæring, som man finder i f.eks. auto-sklearn og det er flere år gammelt. Den kanoniske auto-sklearn udgivelse er fra 2015 så vidt jeg kan se. https://automl.github.io/auto-sklearn/stable/
Er der en doktor til stede, med adgang til Sundhedsplatformen?
Om en forespørgsel til "anæmi" skal expandes til "IDA" afhænger af om det er nyttigt for sundhedspersonalet. I MeSH is IDA under "Anemia", se https://www.ncbi.nlm.nih.gov/mesh/68018798, så på engelsk er det fint at ekspandere forespørgslen. Men lægerne skriver vel på dansk og eventuelt latin?
"Analysis showing the percentage of respondents who agree that their organization would consider paying a ransom by a hacker rather than invest in security because it is cheaper, split by respondent country. "
"would consider" står der i figurteksten. Det betyder - i min læsning - ikke at den angivne procentdel af ledere hellere vil betale ransomwaren, fremfor at investere i it-sikkerhed.
Hvis det ligger i Google's cache, så kan jeg ikke se hvordan folk fra Danmark kan afgøre om data er "kommet til uvedkommendes kendskab". Udfra Google's snippet kan man jo læse lidt.
Som jeg forstår på processerne hos Wikimedia, skal der to til at gennemfører ændring (udover en continuous integration Jenkins bot): Programmøren der committer og en reviewer via Gerrit-værktøjet. Så to skal dumme sig, - ikke at det er umuligt. Det er muligt at små udviklingshuse ikke kan gøre det.
Hvis kunden har adgang til bug-tracking-systemet Jira (som Miracles skriver), kan det vel være meget svært at undgå at en kunden oploader følsom data. Man kan måske have CPR regexp filter, eller en (anden) form for moderator-funktion? Det kræver også en pædagogisk opdragelse af kunden.
Findes der systemer der også hasher på klientsiden før den sendes til serveren? Det kunne give en smule ekstra beskyttelse: Kodeordet vil så ikke ligge i klartekst i en fejlagtig konfigureret serverlog og en person med adgang til kodeordsdatabase ville skulle baglæns igennem to hasher.
Problemet er vel at det kræver at Javascript kører på klienten.
“For dem er et billede ligesom et kærestebrev. Send lige et billede skat, så jeg har noget at drømme om, kan én sige til en anden. Det skaber et bånd mellem de unge, og et billede kan være en bekræftelse på, at vi kan lide hinanden,” siger Helle Rabøl Hansen. - https://gymnasieskolen.dk/deling-af-noegenbilleder-er-blevet-normalt-blandt-gymnasieelever
Her er det værd at bemærke at der er sager hvor billederne/videoerne er taget uden accept fra den der er afbilledet og spredt uden accept fra samme. Hør eventuelt denne udgave af DR P1 Shitstorm: https://www.dr.dk/radio/p1/shitstorm/shitstorm-20 Det er absolut ikke "ligesom et kærestebrev".
Nu når vi taler om kreditering ifm. med software, kunne vi også tale om kreditering af billeder fra Wikipedias mediearkiv.
Billeder og tekst på Wikipedia skrives ikke af Wikipedia, men af virkelige folk. Fotoet af Andrew Tanenbaum er taget af brugeren Jan Tångring (Jantangring, see https://commons.wikimedia.org/wiki/File:Andrew_S._Tanenbaum_2012.jpg) og frigivet under CC BY-SA 4.0 og GFDL 1.2. Som sådan skal ophavsmanden krediteres og licensen angives.
Under "Use this file" ser man et eksempel på en korrekt angivelse:
"By Jantangring (Own work) [CC BY-SA 4.0 (https://creativecommons.org/licenses/by-sa/4.0) or GFDL (http://www.gnu.org/copyleft/fdl.html)], via Wikimedia Commons".
Givet at fotoet er modificeret skal det nok også angives.
Det er muligt at man kan argumentere "Foto: Wikipedia" implicit angiver en ok kreditering. Det er dog ikke min holdning.
- Forrige side
- Nuværende side
- Side
- Side
- Side
- Side
- …
- 20
- Næste side
Finn Aarup Nielsen