Facebook smider danske kulturarvs-arkiv-robotter af: Svært at gemme sociale medier

Fremtidens historikere har brug for et kildemateriale at arbejde med, når de skal forske i, hvordan tilværelsen var i Danmark i 2016. Men sociale medier giver tekniske udfordringer.

Hvordan var dagligdagen for almindelige danskere i 2016? Hvad optog dem, og hvordan diskuterede de politik? Der er ikke mange dagbøger eller for den sags skyld aviser af papir, som fremtidens historikere kan bruge som kilder til at forstå, hvordan det danske samfund så ud i 2016.

Vi kommunikerer med hinanden digitalt, og det giver udfordringer for historikerne, for ikke bare foregår kommunikationen på flygtige medier, men disse medier forandrer sig hele tiden.

Statsbiblioteket og Det Kongelige Bibliotek står i fællesskab for Netarkivet. Det er en tjeneste, der sørger for at indsamle kopier af danske hjemmesider og gemme dem i arkiverne, ligesom det sker med bøger, aviser og en lang række offentlige dokumenter.

Men én ting er at gemme en hjemmeside, noget andet er at gemme den kommunikation, der foregår via de webmedier, der opstod i kølvandet på dét, der dengang blev kaldt Web 2.0.

»I løbet af de seneste år er de sociale mediers position som kulturformidling og kulturskabelse bare vokset og vokset. Det betyder samtidig, at vores interesse for at indsamle dette materiale også stiger. Som med de fleste andre komplekse størrelser er arkiveringen af data fra sociale medier desværre ikke noget, man bare lige gør. Der er en række udfordringer, som vi løbende må forholde os til,« fortæller specialkonsulent Jakob Moesgaard fra Det Kongelige Bibliotek til Version2.

Svært at indsamle fra dynamiske sider

Historikerne vil kunne få et vist indblik i, hvad der foregik på sociale medier gennem sekundære kilder. Politikeres udtalelser på Facebook og Twitter fører ofte til avisartikler, men når de primære kilder mangler, så bliver det svært for historikeren at vurdere, hvilket omfang en 'shitstorm' reelt har haft.

Læs også: Historiske videobånd fra industrien risikerer at gå tabt for eftertiden

Men det giver en række tekniske udfordringer af indsamle materiale fra tjenester som Facebook, Twitter og YouTube.

»De fleste netarkiver arbejder med værktøjer, der er beregnet på indsamling af 'almindelige' websider, og disse værktøjer har meget vanskeligt ved at håndtere de mere komplekse måder, nutidens sociale medier præsenterer indhold på. Det er typisk dynamisk indhold skrevet i Javascript/AJAX eller lignende og renderet i browseren på baggrund af brugerhandlinger på skærmen og andre parametre,« forklarer Jakob Moesgaard.

Funktioner som 'infinite scroll', hvor der indlæses nyt indhold, når brugeren scroller ned i bunden af en side, er svære at få indsamlet korrekt. Derfor skal der laves manuelle tilpasninger af de robotter, der bruges til at indsamle materiale fra de sociale medier og pakke data korrekt i de arkivformater, der skal bruges til at holde styr på, hvad der er indsamlet.

Læs også: Emulering skal redde den danske digitale kulturarv

»Udviklingen på markedet er typisk langt hurtigere end i vores lille community af internationale kulturarvsinstitutioner. Når vi har løst ét problem, har Facebook skabt fire nye,« siger Jakob Moesgaard.

I de cirka 10 år, hvor Facebook har været åbent for alle, er der løbende kommet nye funktioner til. Like-knappen, der siden er blevet symbolet på Facebook, kom eksempelvis først til i 2009. Senest har Facebook tilføjet eksempelvis Live-video. Ifølge Jakob Moesgaard laver Facebook på månedlig basis ændringer, der påvirker indsamlingen.

Læs også: Sådan sikrer Statens Arkiver sine dvd'er: Brænder en ny kopi hvert 7. år

Hvis man vil scrape Facebook for data, så skal man have en vis idé om, hvad man indsamler, så det kan blive håndteret og lagret korrekt. Og det er ikke usædvanligt, at teknologifirmaerne skifter kurs. Som eksempelvis Twitter, der nu er ved at lukke ned for videotjenesten Vine og formentligt vil erstatte den med noget nyt.

Facebook smider robotterne af

En anden udfordring er datamængden. Der bliver uploadet enorme mængder fotos og video til sociale medier hver dag, og Facebook og Google bygger store datacentre for at håndtere datamængderne. Selvom et arkiv kan lægge dataene på magnetbånd, så vil det stadig kræve store ressourcer at gøre data klar til arkivering.

Læs også: Statsbiblioteket: Ingen sag at gemme en bit i 100 år - det svære er at læse den

Netarkivet har identificeret cirka én million åbne danske Facebook-profiler, som i ét eller andet omfang bør bevares. Men selv med ressourcerne til at arkivere alle disse profiler, så vil det alligevel være umuligt.

»Når vi forsøger at starte en indsamling af én million åbne profiler simultant, så sker der meget hurtigt det, at Facebooks servere smider vores harvesters ud fra sitet. Når de opdager en massiv mængde forespørgsler fra en begrænset IP-range, så smækker de simpelthen døren i for næsen af os,« forklarer Jakob Moesgaard.

For Facebook er det primært et ønske om, at der ikke er andre, der kan opsuge al den viden om brugerne, som Facebook også bygger sin forretning på. Hvad der tales om, og hvem der taler med hvem, er lige præcis dét, der gør det muligt for Facebook at målrette reklamer.

Læs også: Katalog på Den Sorte Diamant med forældede browsere og plugins skal sikre den digitale kulturarv

Robotterne kan også blive begrænset af funktioner, der er sat op for at forhindre spam-robotter i at misbruge sociale medier. Og Netarkivets robotter bliver stoppet lige så effektivt af en Captcha som spammernes robotter.

»Det kan være en lidt trist oplevelse at kigge i logfiler og så bare se Captcha efter Captcha og ikke noget bagvedliggende indhold,« siger Jakob Moesgaard.

»Det kan være en lidt trist oplevelse at kigge i logfiler og så bare se Captcha efter Captcha og ikke noget bagvedliggende indhold.«

Begrænsningerne mod høstning på Facebook betyder, at Netarkivet i stedet fokuserer på et mindre antal åbne Facebook-profiler, som høstes jævnligt. Det kan eksempelvis være politikere og andre samfundsmæssige aktører.

Også ulovlige sider høstes

Netarkivets høstning af almindelige hjemmesider overvåger tilsvarende eksempelvis medier og andre sider, der opdateres flere gange dagligt, mens mere statiske sider høstes mere sjældent. I forbindelse med at der sker noget særligt i samfundet, som eksempelvis et folketingsvalg, så kan man høste ekstraordinært. Det samme sker på Facebook, hvor der ved særlige lejligheder bliver høstet fra flere åbne profiler for at få et bredere billede.

Selvom sociale medier er lidt mere lukkede forummer end det generelle web, så er det ikke alle, der er lige lukkede.

»Twitter er ikke så ekskluderende hverken teknisk eller serverpolitisk som for eksempel Facebook og Google. Vi henter mange tusinder af danske Twitter-profiler ned. Vi henter også tusindvis af danske YouTube-videoer ned hver måned,« siger Jakob Moesgaard.

Der er pligtaflevering i Danmark, som sikrer blandt andet bevaring af alle bøger, aviser, radio, tv og en lang række andet indhold. Men afleveringen er ikke sat i system på samme måde på nettet eller sociale medier, hvor udgiverne ofte er udenlandske firmaer. Der er således ingen funktion hos Google, Facebook eller andre, hvor de nationale arkiver kan få udleveret materiale til bevaring.

Ud over de kommercielle hensyn, så er der også spørgsmålet om privacy. Der er strenge regler for, hvem der kan få adgang til at bruge Netarkivet til forskning, og hvilket indhold der kan tilgås. Fra sociale medier kan der være meget personlige opdateringer, som ganske vist foregår i offentlighed, men ikke nødvendigvis er tænkt i en sammenhæng, hvor opdateringen skal kunne fremfindes af alle.

Selv på Facebook er mulighederne for at søge stadig begrænsede, og det kan der både være tekniske og etiske grunde til.

Netarkivet indeholder i forvejen materiale, der ikke bare kan gøres offentligt tilgængeligt. Hvis en hjemmeside står over for at blive lukket, fordi den eksempelvis rummer et forum for deling af piratkopieret indhold, så kan det være interessant at bevare som kulturstudie, men kan ikke være offentligt.

Derfor indsamler Netarkivet ikke kun lovlige men også ulovlige danske hjemmesider, som forskere kan få tilladelse til at arbejde med.

»Det er ofte relevant at lave mindre 'her-og-nu'-indsamlinger af materiale, som vi ikke kan forvente vil være til stede på nettet, næste gang vores webcrawlers kommer forbi. Det er vigtigt at dokumentere alle former for kulturarv, også den uønskede, og derfor skynder vi os ofte at indsamle sider, der står foran lukning, når vi bliver opmærksomme på det,« siger Jakob Moesgaard.

Materialet i Netarkivet er som udgangspunkt lukket for offentligheden. Forskere kan søge om at få adgang i forbindelse med konkrete forskningsprojekter, men arkivets formål er at bevare materialet til fremtidig forskning, og arbejde med materialet er underlagt ophavsretsloven og persondataloven.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (6)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Simon Mikkelsen

Når Facebook er så svær at bruge, er det ikke fordi de er imod denne høstning, men fordi de er helt lige glade. De gør ikke noget aktivt for at forhindre det.

EU må kunne beslutte, at ligesom aviser og forlag skal aflevere kopier, skal komplekse sider som Facebook samarbejde eller stille en API til rådighed til denne indsamling.

Vi skal huske på, at det som Netarkivet indsamer ikke er offentligt, som fx archive.org og vil ikke blive stillet til rådighed for Facebooks konkurrenter. Til gengæld sker der så meget på platformen, at det er af stor betydning at få det gemt.

Morten Li

Opgaven med at identificere og indsamle data om alle aktive danske Facebook-sider via Facebooks officielle API'er har Mingler løst med Whale.

Jeg har ved flere lejligheder foreslået Statsbiblioteket at se nærmere på Whale, men man har desværre ikke ønsket at mødes, da man ikke vil investere i en licens. Iflg. artiklen ser det nu ud til, at man så har forsøgt at egenudvikle et tool. Det lyder umiddelbart mere omkostningsfuldt.

Bent Jensen

Man ved ikke hvad der er vigtig. Eller hvad der bliver noget værd.
Hvis det var kultur eliten eller offentlig heden der bestemmer. Så er det sådan set det samme. Men ved ikke hvad nogen synes hvad som er vigtig eller ikke om 200 til 300 år. Vi ser jo nu at en kiste med gamle uåbent privat breve fra almindelige menneskers nu er mere interesserer end kongerækken.

Torben Jensen

Vi er i året 2016, og Big Brother fra 1984 har heldigvis endnu ikke overtaget samfundet.

Et er at Det Kongelige Bibliotek ønsker at gemme lidt kopier af danske hjemmesider, men at man også ønsker at gemme hvad folket skriver på sociale medier er i mine øjne at gå lidt for langt, hold jer til Danmark.

Facebook, Twitter og Google er vokset til at være nogle voldsomt store sociale medier worldwide.
Data samles om os, misbruges til reklame, sælges videre, og jeg forstår slet ikke at politikere ønsker at bruge Facebook.
Havde været meget bedre hvis vi i Danmark havde vores eget beskyttede sociale media indenfor grænsen, hvor kun borgere med NemID havde adgang, så kunne vi internt i landet snakke politik og meninger.

Et stort antal robotter optager en god mængde trafik fra danske hjemmesider, personligt gør jeg alt hvad jeg kan for at holde dem ude fra egne sider.
Det er muligt at Netarkivet kun er tilgængeligt for forskere, men er data først samlet skal der ikke meget til for at politi og PET kan sidde og overvåge danskeren på nettet.

Pligtaflevering af statiske værker som bøger, tv programmer og film er helt fint.
Men kopi af materiale fra internettet 4 gange om året er umuligt i dagens digital tidsalder hvis det gælder alt, statiske hjemmesider kan nok gemmes.

Log ind eller Opret konto for at kommentere