Biblioteker på vej ud af it-tornerosesøvn: Vil personalisere søgninger og banke Amazon og Google

Langt om længe vil man snart kunne få anbefalet de bøger, der passer bedst til ens personlige smag på bibliotekerne. Tjenesten er ved at få en gevaldig overhaling ved hjælp af machine learning.

Det har i efterhånden mange år været muligt at få personlige anbefalinger for, hvad man skal vælge, når man køber ind på nettet.

Har du købt en bog af Stephen King, vil du måske også kunne lide en af Robert McCammon.

Tjenester som Amazon, Netflix og danske Mofibo lever højt på netop at kunne præsentere brugerne for især det mest populære og personligt relevante indhold.

Men samtidig med, at søgefunktionerne bag de kommercielle tjenester har udviklet sig med rivende hast, har der ikke været meget fremskridt at spore hos de offentlige biblioteker.

Søgefunktionen er udviklet over open source-søgeplatformen Solr og baserer sig stadig på helt basal boolsk logik og metadata fra de forskellige bøger. Man kan søge på specifikke titler, emneord, forfattere mv. - kort sagt alt det, der forudsætter, at man godt ved, hvad man søger efter.

Men hvad hvis man bare gerne vil inspireres?

Det forventer Dansk BiblioteksCenter (DBC), at biblioteksbrugerne kan blive efter årsskiftet. Udviklerne hos DBC er nemlig i gang med at foretage en komplet overhaling af infrastrukturen bag bibliotekernes søgefunktioner, der vil gøre det muligt både at få anbefalet det mest populære og personligt tilpasset indhold.

Med en udviklingspris på omkring fem-seks millioner kroner skal projektet forsøge at gøre bibliotekerne mere up-to-date. Men samtidig vil søgefunktionerne tage skridtet videre end eksempelvis Google og kunne tilbyde endnu flere muligheder for specialiserede søgninger for folk, der ikke kun går efter det bredest tilgængelige indhold.

DBC forventer, at både den generelle biblioteksside Bibliotek.dk samt de enkelte bibliotekers hjemmeside vil få implementeret de nye funktioner løbende fra starten af 2016. Samtidig er det også planen, at brugerne på bibliotekernes onlinetjeneste Filmstriben.dk samt lyd- og e-bogssiden E-ereolen.dk skal få gavn af de personaliserede og mest populære anbefalinger.

Google kommer til kort med bibliotekernes metadata

En af udfordringerne for bibliotekerne har været at forstå de sammenhænge, der er mellem de forskellige bøger, som ikke nødvendigvis deler metadata.

Sagt på en anden måde kan der være mange personer, som er interesserede i de samme to bøger, selvom de ikke nødvendigvis har samme genre eller forfatter.

Før i tiden havde bibliotekerne ikke infrastrukturen til at lave disse sammenligninger, men ved hjælp af machine learning er DBC godt på vej til at gøre det muligt. Udviklerne har samlet analyseret på op mod 70 millioner udlån på de danske biblioteker og har på den måde kunnet etablere sammenhænge og brugersegmenter, som nu kan bruges i de kommende søgefunktioner.

Kort sagt kan bibliotekerne nu spotte nogle af de sammenhænge i brugsmønstrene, som Amazon og Google har kunnet i årevis. Dermed kan brugerne endelig få anbefalet de mest populære bøger af den samme forfatter eller emne og samtidig få foreslået andre ellers urelaterede bøger, som andre har lånt, når de også har lånt den pågældende bog. En funktion, der blev kendt fra Amazon ('kunder, der har købt denne vare, har også købt…').

Trods ventetiden på funktionen er der ifølge chefstrateg hos DBC Bo Weyman alligevel en god grund til, at bibliotekerne ikke bare bruger Google Search, men bygger det hele op fra bunden.

Utroligt nok (men sandt) så har bibliotekerne adgang til nogle data, som informationsgiganten Google endnu ikke har kapret. Gennem årene har bibliotekarer udfyldt meget omfangsrige metadata om de forskellige værker på bibliotekerne, og det har resulteret i et meget omfattende katalog, hvor man ikke kun finder de overordnede genrer, men kan slå meget detaljerede oplysninger op. Slår man eksempelvis et musikværk op, vil bibliotekerne kunne diske op med metadata omkring alt fra genre og besætning til orkestertype og dirigenter mv.

»Når vi kan gå ned og filtrere på meget specifikke oplysninger og koble det med andre brugere, så kan vi give anbefalinger, der er meget tættere på din specifikke smag, i stedet for at ramme en bred popularitetsskive,« siger Bo Weymann og forklarer, hvorfor Google ikke fungerer til det formål:

»Vi har prøvet Googles search, men vi får ikke meget ud af det, fordi søgemaskinens hovedalgoritme er baseret på, hvem der linker til hvem,« siger han og forklarer, at søgemaskinen ikke kan foretage søgninger og sammenligninger på de relevante metadata for hver enkelt bog.

»De datasæt ligger i nogle særlige indholdssystemer, hvor du kun har adgang, hvis du er bibliotek - og det er Google ikke,« siger han, men vil dog ikke udelukke, at Google en dag kan få snablen ned i bibliotekernes bagvedliggende metadata for at kunne forbedre søgningerne.

»Det er dog ikke noget, Google har interesseret sig for indtil videre,« siger han.

Personaliserede søgninger kan overtage bibliotekarrolle

Ud over de faktiske udlån har udviklerne også analyseret biblioteksbrugernes online-adfærd for at forbedre anbefalingsalgoritmerne. Det inkluderer ifølge Bo Weymann blandt andet alle de ting, som man som biblioteksbruger klikker på og søger på .

Disse data bliver således sammenholdt med udlånsdata og de personlige data om brugeren, såsom alder, køn og geografisk placering (brugerens bibliotek) for at kunne skabe nogle brugersegmenter med en særlig smag.

På den måde kan man få anbefalet bøger, som andre brugere med samme smagsprofil også har lånt. En funktion, der hidtil har været varetaget af bibliotekarerne, men som algoritmerne vil kunne overtage med tiden.

Typisk skal ens adfærd have omkring 80 pct. til fælles med en anden brugers datasæt, for at anbefalingerne bliver bedst ifølge Bo Weymann.

»Nogle brugere er glade for at blive overraskede og få anbefalet noget uventet. Men det skal alligevel være inden for en kontekst af noget, der er tæt på dig, for at du synes, det er relevant,« siger Bo Weymann og giver som eksempel, at det ikke nytter noget, hvis en voksen mand får anbefalet en bog til syvårige.

Udviklerne har automatisk indsamlet brugernes oplysninger til at etablere de forskellige segmenter, men hvis den enkelte bruger skal have personaliseret søgefunktionen, skal vedkommende først acceptere at dele sine oplysninger.

Samtidig ønsker DBC at træde væk fra Googles fodspor og gøre personaliseringen helt transparent. Med andre ord vil brugeren få at vide, på hvilket grundlag hun har fået anbefalet en bog.

»Vi ønsker ikke at gøre som mange kommercielle tjenester og gøre det bag om ryggen på folk. Ofte fremgår det ikke, hvordan tingene bliver personaliseret,« siger Bo Weymann.

Han forventer, at søgefunktionerne vil blive gradvist rullet ud i løbet af 2016.

De her værktøjer har jo været tilgængelige længe blandt andet hos Amazon. Hvorfor tager I dem først i brug nu?

»Det har været et ressourcespørgsmål. Vi har haft andre opgaver, der har trukket ressourcerne,« siger Bo Weymann.

Opdateret den 8. september 2015.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (12)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#1 Michael Jensen

Er det det værd?

Vil vi stadig have biblioteker hvor vi private kan låne bøger for sjov?

Burde bibliotekerne gentænke sig?

I stedet for alt mulig dyr automatik, der kan finde de samme informationer til mig, som google, amazon, og resten af interwebs, vil jeg hellere have de ansætte flere bibliotikarer, som kan fungere som en slags "manuel" informationssøgemaskine. Så kunne bibliotek.dk blive ændret helt, så i stedet for de finder materialer til brugerne, så finder de informationer.

"Kære bibliotek, jeg ønsker viden om hvordan man bygger en støttemur / laver en flygtningelejr / hvilken plante det er jeg har et billede af her / hvordan jeg reparerer min bil fra 1948."

"Kære borger. Vi har nu samlet informationer vedrørende din forespørgsel. Ud over følgende bøger, som vi har bestilt hjem til dig digitalt, og mærket de relevante afsnit i, har vi også skaffet manualen/vejledninger xyz, der ellers var udgået fra forlaget, men som et arkiv i Moskva havde en kopi af. Dine materialer kan downloades her, og du kan besvare denne email hvis du har yderligere spørgsmål".

  • 4
  • 0
#2 Thomas Jensen

Jeg arbejdede engang (15 år siden) på en skole, hvor skolebibliotekaren fortalte, at når først en bog var afleveret, så kunne man ikke se hvem der tidligere havde lånt den. Det var et krav fra biblioteksloven (?), da man ikke måtte registrere hvem der læste hvad. Det var lidt upraktisk når man havde en skadet bog, og man ikke kunne stille nogen til ansvar, men den pris mente bibliotekaren det var rimeligt at betale.

Og nu kan man så læse, at

Ud over de faktiske udlån har udviklerne også analyseret biblioteksbrugernes online-adfærd for at forbedre anbefalingsalgoritmerne. Det inkluderer ifølge Bo Weymann blandt andet alle de ting, som man som biblioteksbruger klikker på og søger på .

Disse data bliver således sammenholdt med udlånsdata og de personlige data om brugeren, såsom alder, køn og geografisk placering (brugerens bibliotek) for at kunne skabe nogle brugersegmenter med en særlig smag.

Må bibliotekerne virkelig det her? Hvad bliver der gjort for at sikre at data ikke kan misbruges?

  • 6
  • 0
#4 Michael Zedeler

Gennem årene har bibliotekarer udfyldt meget omfangsrige metadata om de forskellige værker på bibliotekerne, og det har resulteret i et meget omfattende katalog, hvor man ikke kun finder de overordnede genrer, men kan slå meget detaljerede oplysninger op.

Til dem som kunne være interesserede i at vide hvad det mon er for noget, kan jeg henvise til DBCs primære katalogiseringsformat, danMarc2.

  • 0
  • 0
#5 Martin Pedersen

@ Thomas: Du har ret. Man må ikke logge hvilke bøger lånere har haft (og det er de faktisk ofte irriterede over..). Men, spørgsmålet er om man kan bøje loven, ved fx at sige at det kun er til "lånerens eget bedste" at få anbefalingerne. Jeg arbejder selv på bibliotek, men ville ikke bryde mig om at få disse forslag. Hvad jeg låner og hvorfor er min egen sag. For kan DBC garantere at der ikke er andre, der får adgang til mine data?

  • 2
  • 0
#6 Bjarne Nielsen

Man må ikke logge hvilke bøger lånere har haft (og det er de faktisk ofte irriterede over..).

Logning og profilering bag ryggen af folk er af det onde, uanset om det sker i den bedste mening. Så pænt nej tak til en generel løsning, og pænt nej tak til endnu en opt-out ordning.

Men hvis det var helt tydeligt, hvad oplysningerne blev brugt til (og nej, det gælder ikke, når man tager selv uden at spørge til 'forskningsformål'), så kunne det da være interessant, hvis biblioteket kunne hjælpe en med at holde styr på favorit bøger og kilde lister. Bare jeg selv bestemmer, hvad som skal huskes, og hvorlænge. Måske en app, som lagrer data lokalt eller et andet sted under min kontrol, og som kunne scanne bøgerne og hente stamdata hos biblioteket. Eller som kunne komme med forslag til: hvis jeg nu siger, at disse tre forfattere er interessante, hvad kan du så ellers anbefale? Så kunne det være interessant.

Og ja, jeg er bekendt med sites som f.eks. Goodreads.

  • 0
  • 0
#8 daniela sørensen

»Vi har prøvet Googles search, men vi får ikke meget ud af det, fordi søgemaskinens hovedalgoritme er baseret på, hvem der linker til hvem,« siger han og forklarer, at søgemaskinen ikke kan foretage søgninger og sammenligninger på de relevante metadata for hver enkelt bog.»

Hvornår prøvede de google search, i 1997? der er over 200 forskellige faktorer som indgår i deres rankeringsalgoritme (opdateres ugentligt med vægtning). Umidelbart lyder det ikke som om at søgning i bibliotekernes systemer ville være en svær opgave for google.

Hvis jeg sammenligner en google søgning på en specifik titel med en bibliotek.dk søgning tror jeg faktisk google kan løse opgaven bedre....og en hel del billigere...stod der virkeligt at de vil bruge 6 mill på det her ? Det er jo nærmest kriminelt.

»De datasæt ligger i nogle særlige indholdssystemer, hvor du kun har adgang, hvis du er bibliotek - og det er Google ikke,« siger han, men vil dog ikke udelukke, at Google en dag kan få snablen ned i bibliotekernes bagvedliggende metadata for at kunne forbedre søgningerne.

der er to ting jeg bemærker her. 1. Den eneste effektive grund til at google search ikke virker, er at de ikke har adgang til det sted meta data ligger (indholdsystemer). en adgang de selv styrer. 2. vi kan til enhver tid risikere at de giver nøglen til Google hvis de får de rigtige incitament.

Dejligt at vi kan stole på...nej vel ?

Jeg menes at have læst en undersøgelse om hvorfor offentlige IT projekter altid fejler. Noget med at man altid selv vil bygge tingene op fra bunden af i stedet for at bruge testet og gennemprøvet teknologi. Det lyder for mig som om at det er den samme sang der spiller her.

En hurtig undersøgelse viser faktisk at bibliotekerne ikke må gemme personhenførbar data overhovedet (skal slettes når bogen afleveres (stk 5), med en undtagelse på 4 uger (stk 12).

Lov om behandling af personoplysninger, lov nr. 429 af 31. maj 2000

Jeg bliver nødt til at genoverveje mine mange udlån af 50 shades og købe den fra amazon (Hey, a girls gotta do what a girls gotta do)

  • redigering: fjernelse af lettere hånlig kommentar angående kriminalitet i forbindelse med overtrædelse af love/regler - kunne anskues for at være et personligt angreb.
  • 0
  • 0
#9 Bjarne Nielsen

Jeg bliver nødt til at genoverveje mine mange udlån af 50 shades og købe den fra amazon

Uha, nej. Amazon registrerer det også, og du kan roligt regne med at få (u-)passende 'anbefalinger' fra dem i meget lang tid fremover, hvis først du er faldet i en gang.

Køb den hellere i et vel-assorteret supermarked ... og betal med kontanter. Eller lån den af en veninde, som du kan stole på.

  • 0
  • 0
#11 Bjarne Nielsen

... ikke låne- og søgehistorik, der anonymiseres og kun opbevares anaonymt.

Åh nej, ikke anonymisering igen.

Lad mig pege på et af de mere kendte eksempler, hvor Netflix for en halv snes år siden fik ørerne godt i maskinen på et angiveligt anonymiseret datasæt over hvad nogle af deres brugere syntes om nogle af deres film. Bruce Schneier skriver flg. i artiklen Why 'Anonymous' Data Sometimes Isn't:

What the University of Texas researchers demonstrate is that this process isn't hard, and doesn't require a lot of data. It turns out that if you eliminate the top 100 movies everyone watches, our movie-watching habits are all pretty individual. ...

The obvious countermeasures for this are, sadly, inadequate. Netflix could have randomized its dataset by removing a subset of the data, changing the timestamps or adding deliberate errors into the unique ID numbers it used to replace the names. It turns out, though, that this only makes the problem slightly harder. ...

With only eight movie ratings (of which two may be completely wrong), and dates that may be up to two weeks in error, they can uniquely identify 99 percent of the records in the dataset. After that, all they need is a little bit of identifiable data: from the IMDb, from your blog, from anywhere. The moral is that it takes only a small named database for someone to pry the anonymity off a much larger anonymous database.

Bøger og film er sammenlignelige domæner.

  • 0
  • 0
#12 Morten Hansen

Hvis jeg sammenligner en google søgning på en specifik titel med en bibliotek.dk søgning tror jeg faktisk google kan løse opgaven bedre....og en hel del billigere...stod der virkeligt at de vil bruge 6 mill på det her ? Det er jo nærmest kriminelt.

Hvis man kan indfinde sig med Googles registreringer af bevægelser på nettet, kan Google stadig anbefales. Også til søgninger på Bibliotek.dk. har Google godt fat. Et par gange er det lykkes mig at bruge Google som søgemaskine, til at finde specifikt materiale på Bibliotek.dk og ereolen.dk, som jeg vidste jeg tidligere havde lånt, men som de respektive sider ikke kunne finde til mig. Det kunne Google, med reference til de respektive titler på Bibliotek.dk/ Ereolen.dk. Og for at dryppe yderligere lidt malurt i bægeret, vil jeg da også gerne advare Bo Weymann om ikke at lave en Biblioteks-EFI - som en søgemaskine fra scratch nok let kunne udvikle sig til.

  • 0
  • 0
Log ind eller Opret konto for at kommentere