Google forment adgang til danske love

Google og de andre søgemaskiner har ingen adgang til rigets lovsamling på retsinformation.dk. Et spørgsmål om maskinressourcer, lyder begrundelsen fra Civilstyrelsen, der driver websiden.

En søgning i Google kan føre til meget, men dansk lovgivning fra retsinformation.dk er ikke blandt de mulige resultater. Civilstyrelsen, der står bag retsinformation.dk, har nemlig valgt at udelukke søgerobotter fra websiden via en robots.txt-fil.

Det er ikke et spørgsmål om, at lovene ikke må indekseres af andre, men en praktisk beslutning, der skal spare på serverkraft og båndbredde, forklarer kontorchef i Civilstyrelsen, Søren Nielsen:

»Det bruger mange maskinressourcer, når søgerobotterne dagligt skal opdateres. Det kan være flere tusinde html-sider, der er ændret, når vi har ajourført. Så vi har valgt at bruge vores ressourcer på at servicere brugerne af retsinformation.dk og ikke søgemaskinerne,« siger han.

Retsinformation.dk har 11.000-12.000 daglige unikke besøgende, og Civilstyrelsen har ikke undersøgt, hvor stor en ekstra belastning det vil give, hvis søgerobotterne lukkes ind på websitet.

Google er med i overvejelserne

Civilstyrelsen har i øvrigt løbende overvejet, om Googles søgemaskine kunne bruges til lokal søgning på websiden, udover den meget specifikke og måske ikke umiddelbart gennemskuelige søgefunktion, som retsinformation.dk har nu.

Brugerne af lovsamlingen er nemlig alt fra jurister til almindelige, nysgerrige borgere, og en google-lignende søgefunktion har været efterspurgt af brugerne. Men indtil videre er der ikke fundet midler i budgetterne til at opfylde ønsket.

»Det ville give for meget støj i søgeresultaterne at bruge Google som lokal søgemaskine uden en tilpasning. Vores data er ikke en hel masse forskellige websider, men meget strukturerede data. Og der er forskel på for eksempel en lov og en vejledning, så det skal også kunne indgå i søgningen. Vi har brug for en juridisk udgave af Google, tilpasset danske forhold, og det koster penge,« forklarer Søren Nielsen.

Retsinformation.dk er Danmarks digitale lovsamling og rummer alle danske love og en række andre officielle juridiske dokumenter, for eksempel fra behandlingen af lovgivningen i Folketinget eller fra Folketingets ombudsmand.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (23)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Jakob Bruun Hansen

Så vi har valgt at bruge vores ressourcer på at servicere brugerne af retsinformation.dk og ikke søgemaskinerne

Det er sådan noget spin man mest er vandt til at høre fra politikere, og som man bliver så træt af. Hvem tror han bruger søgemaskinerne?

Hvorfor ikke bare lukke serveren ned? Så kan de spare rigtig mange ressourcer.

  • 0
  • 0
Jacob Christian Munch-Andersen

Et fremragende eksempelt på at en person har fået en magt som vedkommende slet ikke kan administrere.

Jeg tror at vi allesammen kender dem, i det øjeblik de finder et værktøj som kan begrænse eller blokere så skal det udnyttes. Det udmynter sig i alt fra den patetiske højreklik blokering til netværk som man kun kan logge på indenfor normal arbejdstid.

Jo mere magt disse personer får, jo værre bliver det selvfølgelig. Og nu er der altså havnet en et sted i toppen af Civilstyrelsen, som har fundet ud af at robots.txt kan bruges til at nedbringe mængden af 'unødvendig' trafik.

  • 0
  • 0
Jakob Bruun Hansen

Lovtekster er TEKSTER derfor kan man også søge i dem.

Magen til inkompetence...

Nej Nej!!! Deres data er meeeeget specielle! De kan da ikke bare lade sådan en almindelig søgemaskine lede igennem dem! Der skal noget heeeelt særligt til!

Hvorfor kommer jeg til at tænke på folk, der kalder deres barn Kristophpher?

  • 0
  • 0
Laus Brandt

Jeg søgte lidt på et par love.
Den største side jeg fandt var på 22k og tog ca. 180ms at hente.

Så hvis google gik helt amok ville de kunne hente 1000 sider på 3 min, hvis altså jeg hentede med alt den gas serveren kunne overkomme.

Google henter ikke med fuld gas af ihvertfald 2 grunde.
1. De skulle have en kæmpe båndbredde liggende i reserve hvis nogen skulle finde på at opdatere deres side.
2. De er ikke interesseret i at suge alt kraft og saft ud af en hjemmeside, da de ikke har lyst til at pisse folk af(brugere og webmastere) så de havner i /dev/null.

Skulle man alligevel synes de belaster ens server for meget kan man ganske let og automatisk bede dem om at skruge ned for gassen. (Faktisk har de også nogen pæne grafer der fortæller hvor meget de henter og hvor lang tid bruger på det)

Hvis nogen tusind forespørgsler kan bringe deres system i knæ, så har de nogen meget større problemer end google.

  • 0
  • 0
René Løhde

Hvordan er det lige man laver en lov i Danmark?

Er det ikke noget med en hovedlov, som afhængigt af de politiske svingninger bliver til en eller flere
nye love ved hjælpe af ændringslove? Lidt i stil med:

Hovedlov, "Knivforbudslov", 1978: "...det er forbudt at bære store knive...."

Ændringslov til "Knivforbudslov" af 1978, 1998: §2, stk 4, linie 2, ordet "store" fjernes og efter ordet "knive" tilføjes "med en knivbladslængde større end 13 cm."

Så for at få en fornuftig søgning skal søgemaskinen være i stand til at finde den referentielle binding mellem disse dokumenter/data hvis man f.eks er interesseret i at få en lovtekst, som er gældende dags dato.

De overvejelser man skal gøre sig er viljen til at tage en større offentlig sagsbehandling på misforståelser ved "popularitetssøgninger" eller om man skal baserere en søgning på relevans og derfor er "tvunget" til at bruge den "indbyggede" søgning.

PS! Hvorfor ikke bare bede om adgang til det webservice api (?) som f.eks det trykkerierne af lovtekst har adgang til!?

  • 0
  • 0
Stig Johansen

men en praktisk beslutning, der skal spare på serverkraft og båndbredde

Ja, det er vist alment kendt, at .NET ikke rigtig dúr til heavy load, så hvis man skal spare på serverkraft, hvorfor har man så valgt at basere systemet på denne 'teknologi'?

Og - altså, https - helt ærligt.
Alle ved da det er enomt ressourcekrævende eller?
Der er en årsag til man kun bruger det ved login på større systemer.

Båndbredde?
Jeg tror nok jeg engang har set en standard fra sidste årtusinde, gzip, eller hvad det nu er den hedder.
Selv IE har undestøttet den fra i hverfald version 5.

  • 0
  • 0
Jens Katz-Kolberg

Så for at få en fornuftig søgning skal søgemaskinen være i stand til at finde den referentielle binding mellem disse dokumenter/data hvis man f.eks er interesseret i at få en lovtekst, som er gældende dags dato.

Hvorfor skal søgemaskinen gøre det ?

Det er vel blot et spørgsmål om at siderne i sig selv sørger for at have links til nyere udgaver, samt til alle de andre love, bekendtgørelser, etc. som refererer til den aktuelle.

  • 0
  • 0
René Løhde

"Hvorfor skal søgemaskinen gøre det ?

Det er vel blot et spørgsmål om at siderne i sig selv sørger for at have links til nyere udgaver..."

Jeg tror at det er meget få personer som kan overskue at for at få fat i en komplet lov eller gældende lov skal som man selv skal sætte sammen af tekststumper. Jeg kan ikke!

Derfor tror jeg at der uundgåeligt kommer support på dette. Det er det jeg mener med ekstra sagsbehandling og umiddelbart det jeg tror Søren Nielsen mener med "støj".

Jeg har haft denne diskussion med mange eksperter inden for området og mine erfaringer er at en "lovtekst" er at sammenligne med en database mere end det er et tekstdokument.

Jeg kan underbygge den anskuelse med at de fleste lovstofs-IT projekter gør brug af special lavede editorer til redigering af dokumenter (Jeg har selv stiftet bekendskab med "LexDania" i Danmark,
"Norme in Rete" i Italien og "MetaLex" i Holland).

Ideelt set vil de enkelte projekter allerhelst knytte metadata til de enkelte ord eller sætninger. F.eks noget i stil med:

"...det er forbudt at bære [start:metadata 2.juni 1998: Tekst fjernet i henhold til ...]store[slut:metadata 2.juni 1998] knive [start:metadata 2.juni 1998: Tekst indsat i henhold til ...]med en knivbladslængde større end 13 cm [slut:metadata 2.juni 1998]".

Jeg har ladet mig fortælle at dette er en direkte videreførelse af den arbejdesgang som de sagsbehandlende embedsfolk i resortministerier og styrelser brugte (og måske stadig bruger?). Der bliver brugt en hel del papir, post-its, lim og sakse for at få skabt/ændret en lov.

En loveditor tillader den slags metaredigering af lovdata og betyder at man f.eks har mulighed for se loven i "tid". Måden man løser det flere steder er at opbevare lovteksten i databaser og dynamisk generere de dokumenter, som efterspørges. Grunden til at det er smart at gøre det på databasemåden kan være hensynet til normalisering f.eks hvis en ny lov bliver lavet ved en ændringslov, der laver om i to eksisterende hovedlove (1:Mange relation).

Hvis man spørger Forlaget Thompson og evt kigger på deres hjemmeside (http://www.thomson.dk/pls/pdb/katpage.show_title?p_varebestilling_id=103...) så vil jeg forvente at der er væsentligt mere værdi i en online lovsamling end i en trykt (som i praksis er forældet den dag den er færdig til tryk!). Unerstøttet at denne pitch fra Karnov siden: "Daglig opdatering med lovændringer og ny domspraksis, så du altid kan blive bragt ajour. "

En indeksering fra en søgemaskine vil ikke bidrage med værdi her - tværtimod vil det give anledning til rigtig mange tvivlsspørgsmål. En søgemaskine som f.eks Google er kun interesseret i at kunne partitionere data og give et søgeresultat til brugeren inden for en bestemt svartid (tilgængelighed og performance). Google har ingen interesse i konsistente søgeresultater. Det har de som udbyder lovstofsinformationen. Retsinfomation er forpligtet til det!

  • 0
  • 0
Henrik Størner

https - SSL eller TLS - kræver ikke mange ressourcer, ud over det første handshake når forbindelsen etableres. Og der findes i øvrigt glimrende hardware-løsninger hvor SSL krypteringen håndteres af dedikeret hardware, d.v.s. der er ingen ekstra belastning af selve serveren. Sådan noget kan fåes for nogle få tusind kroner - næppe det der vælter IT-budgettet.

At bruge SSL kun til login afhænger godt nok af hvad det er for nogle data der skal overføres. Generelt er det en ret dårlig ide - og ligegyldig, da belastningen som sagt mest ligger når forbindelsen etableres.

Datakomprimering med gzip vil faktisk nok give mere load på serveren end SSL.

  • 0
  • 0
Flamber Hansen

Jeg kan kun se få grunde til, at siden kører med HTTPS.
Det skaber nok flere problemer end det løser.

Vælg derefter en god accelerator. F.eks. Varnish, som en klog dansker bl.a. er med til at udvikle.

Fjern eventuelt print-funktionen (print.aspx) og erstat den med en CSS-print. Det sparer kode og gør siden mere tilgængelig.

  • 0
  • 0
Jacob Christian Munch-Andersen

@René

Google kan tilbyde heltekstsøgning, det kan retsinformation ikke. Hvis ikke man ved hvad for et nummer den lov som man søger efter har så er man på skideren.

Google er ikke optimalt nej, men deres egne søgemuligheder er direkte elendige. Uanset hvem der er forpligtet til hvad så ville Google søgninger som supplement forbedre søgemulighederne væsentligt. Man kunne så hjælpe Google ved fx at give gældende sammenskrevne lovtekster deres eget subdomæne og på den måde åbne for heltekstsøgning i gældende lov.

  • 0
  • 0
Stig Johansen

https - SSL eller TLS - kræver ikke mange ressourcer

Hvis du laver en Google søgning på
ssl performance penalty
Så skriver selv Microsoft og IBM:

Using the SSL protocol for encryption protects data traveling over the Internet, but it also imposes a performance penalty. SSL can slow down an application or Web site considerably.

Bemærk /considerably/.

Hvis det kan løses for et par 'tusinde', så køb da skidtet pg luk søgemaskinerne ind.

Datakomprimering med gzip vil faktisk nok give mere load på serveren end SSL.

På mine egne servere opererer jeg med 'for-zippede' filer.
Det betyde at de browsere, der understøtter gzip, og Google, Yahoo, får leveret content 'as is'.

Der er dermed kun tale om belastning for de klienter, der ikke understøtter gzip.

Det er dog dekomprimering, hvilket kræver langt færre ressourcer end komprimering.

Jeg ved ikke om Poul-Henning's Varnish kan gøre det samme, men ellers er ideen hermed givet videre.

  • 0
  • 0
Peter Maersk-Moller

Jeg spekulerer på, hvad baggrunden for artiklen er. Ret beset ville det være passende med en udtalelse fra Google selv.

Retsinformation tillader andre dagligt at downloade og indeksere deres tekster uden vederlag. Derfor ville det ikke være uproblematisk for dem at stoppe Google med legale værktøjer fra at indeksere deres tekster.

At Google vælger at respektere robots.txt er Googles valg.

At vi som borgere og brugere ikke kan få adgang til retsinformation via Google, bla. og netop fordi deres egen søgefunktion er så elendig, er naturligvis en sandsynligvis unødvendig tabt mulighed.

Men det er fuldt ud en acceptabel beslutning, hvis deres tekniske afdeling beslutter, at de grundet ressourcemæssige årsager sløver/stopper søgemaskiner fra at indeksere dem.

Er vi utilfredse med det, kan vi klage til retsinformations beslutningsansvarlige og eventuelt til deres politisk valgte leder. Og det bør vi gøre.

Men indrømmet, det er en lille "konge" der begår den ulimative fadæse at erklære, at vores data er for specielle til, at andre kan få lov til at indeksere dem, hvilket reelt er det, der fremgår af artiklen. Så må journalisten stå inde for, at han har gengivet sin kildes holdning korrekt.

  • 0
  • 0
Anonym

Når man f.eks. diskuterer skattelove er der en klar erkendelse af at borgerne skal kunne undersøge og forespørge om love uden det har indirekte konsekvenser, dvs. det skal kunne ske anonymt.

I den konkrete sag er der dermed også spørgsmålet om det bør betragtes som hensigtsmæssigt at f.eks. Google på denne måde opsamler og kobler detailviden om danske borgere og virksomheders søgninger i retsgrundlaget.

Hvis ikke så må man eksplicit sørge for at indrette systemerne så det kan lade sig gøre uden en sådan registering KAN finde sted.

  • 0
  • 0
Peter Makholm Blogger

Jeg har lige skullet tjekke Straffelovens §96. Istedet for at klikke mig genem 'retsinfo.dk -> danske love -> populærtitler -> S -> Straffeloven' søgte jeg på Google.

Og sørmer om ikke jeg som et af de første hits fandt en lovbekendtgørrelse af straffeloven fra retsinformationen. Dog tydeligt markeret historisk, men to klik senere i boksen 'Senere ændringer til forskriften' havde jeg den nyeste bekendtgørelse af straffeloven foran mig (den nyeste lovbekendtgørelse er også blandt de første hits på google). Måske ikke færre klik, men jeg slap for at Retsinformation åbner nye tabs i min browser fordi de helt klart er af den overbevisning at jeg ikke finder det jeg søger i deres dokumentlister - Ekstra bonus til google.

Nu kender jeg selvfølgelig processen og vidste derfor hvordan jeg kom videre fra den historiske lovbekendtgørelse. Men det tror jeg at man med enkle brugergrænsefladeændringer kan gøre en del mere tilgængeligt for den jævne borger. En indvending om at den professionelle bruger har brug for netop den formulering webstedet bruger nu kan løses ved at lave to indgange - Forskellige behov løses bedst ved at lave forskellige muligheder.

Men jo, Retsinformation har noget viden om strukturen af deres indhold som er svært at viderbringe til Google. Men internetbrugeren har nogle vaner der også er svære at ændre. Hvilket problem er lettest at løse? Skal borgerne tilpasse sig retsinfos behov eller skal retsinfo tilpasse sig borgernes behov?

Med den nye grønne retsinformation har jeg i det mindste ikke denne fornemmelse af at sidde ved en langsom konsol når jeg søger. Ikke flere 'Forbindelsen til serveren genoprettes'-beskeder...

  • 0
  • 0
Niels Wind

Hvis du laver en Google søgning på
ssl performance penalty
Så skriver selv Microsoft og IBM ...

Check selv lige datoen. Microsoft skriver 2003 på deres første hit. Dengang var det nok rigtigt.

I dag giver symmetrisk kryptering med f.eks. AES meget lidt overhead. SSL handshake er mere krævende, men skal kun gøres en gang.

Det er nok ikke der det store performance-boost skal hentes.

Måske skulle man tage at cache ændrede / mest brugte lovtekster. Der må vel også findes distribuerede caches til .net?

  • 0
  • 0
Jacob Christian Munch-Andersen

Men det er fuldt ud en acceptabel beslutning, hvis deres tekniske afdeling beslutter, at de grundet ressourcemæssige årsager sløver/stopper søgemaskiner fra at indeksere dem.

Det er ikke acceptabelt, for belastningen er ikke i nærheden af at være kritisk. Det tager i omegnen af en uges tid for Google at crawle hele nettet, Google henter altså en hel kopi af serverindholdet per uge. Det kommer slet ikke i nærheden af at være sammenligneligt med den mængde trafik som serveren kan klare.

Ret beset ville det være passende med en udtalelse fra Google selv.

De er vist ret ligeglade, det er siderne selv som taber trafik ved ikke at være indekserede.

  • 0
  • 0
Stig Johansen

Der må vel også findes distribuerede caches til .net?

Det behøver ikke nødvendigvis være .net

Jeg har et lille filter/tunnel kørende som jeg har lavet både som en windows service og en Linux daemon.

Linux daemonen kører faktisk meget hurtigere i en Wmware på windows end den native windows service.

Så et Linux cache system vil sikkert være et godt alternativ.

  • 0
  • 0
Peter Maersk-Moller

Der skrives:
"Det er ikke acceptabelt, for belastningen er ikke i nærheden af at være kritisk. "

Ja, det er korrekt, men kun en del af billedet. Dels er et hav af andre web-crawlers fra andre firmaer, der alle bidrager med trafik, dels leder indeksering til både relevante og ikke relevante klik på deres hjemmeside. Det Retsinformation har gjort er som at bygge en stor bred vej og så indføre indsnævringer og bump. Kun dem der absolut skal den vej, vil køre ad den.

Det er ok, at deres tekniske afdelingen af ressourcemæssige årsager tager en beslutning om bumpene og indsnævringerne, men til gengæld skal vi alle punke den politiske ledelse for at gemme så vigtig information for os alle af vejen på en lille støvet afsides liggende stikvej til en sidevej, i stedet for at få informationen ud direkte på Innternettes motorveje. Det er for dårligt. Ingen tvivl om det.

det til øget trafik

  • 0
  • 0
Log ind eller Opret konto for at kommentere