Gå til hovedindhold
Version2 it for professionelle
Forsiden

Hovedmenu

  • It-nyheder
  • Blogs
  • It-job
  • It-firmaer
  • Emner
  • Opret bruger
  • Log ind
Se kommentarer (16)
Emner Web-services, Udviklingsværktøjer

Uofficielt API skræller politiker-data og kaster demokratiet i grams

It-udvikler Michael Friis stiller nu et komplet API til rådighed, som giver adgang til data om politikernes beslutninger uden om folketinget.dk.

Af Mikkel Meister Fredag, 24. september 2010 - 10:52

Hver eneste nat får Folketingets officielle hjemmeside, folketinget.dk, besøg af et såkaldt web scraping-program, der 'skræller' informationer om folketingspolitikernes gøren og laden af hjemmesiden.

De opsamlede data tjekkes for, om der skulle være lagt nye lovforslag, spørgsmål og høringsreferater ud på hjemmesiden siden scraping-programmets seneste besøg.

Programmet er skrevet og sendt i marken af Michael Friis, der til daglig er udvikler på Ekstra Bladet, men som i sin fritid står bag projektet Folkets Ting.

Det er egentlig ikke noget, han har fået lov til, sådan at pille data ud af folketinget.dk på daglig basis. På den anden side har Folketingets it-folk endnu ikke brokket sig, fortæller han.

Så han gemmer eventuelle ændringer på folketinget.dk i sin egen database, og som en del af Folkets Ting gør han nu de data tilgængelige for danske webudviklere i alle afskygninger med et spritnyt og netop færdiggjort API.

»Folketingets it-folk er meget omhyggelige med at generere en masse spændende data om de ting, der sker i Folketinget. Men de data kan sagtens bruges til meget andet, og selvom jeg selv har en masse idéer, er det bedre, hvis andre også kan få mulighed for at udnytte Folketingets data,« fortæller Michael Friis til Version2 om baggrunden for projektet.

Smertefuldt arbejde

Idéen er altså at kaste oplysninger om det danske demokrati i grams til alle udviklere, der måtte have interesse i at skrive programmer og web- eller mobilapplikationer, der udnytter de data.

Han beskriver selve arbejdet med at få pillet de relevante data ud af folketinget.dk som »meget smertefuldt« og noget, han »ikke vil anbefale andre at gøre«.

Det skyldes ikke mindst relanceringen af Folketingets hjemmeside i oktober 2009, som tvang Michael Friis til at omskrive scraping-programmet fuldstændigt.

**LÆS OGSÅ **Folketinget.dk bliver genopført fra ruinerne

For at demonstrere formålet med det nye API har Michael Friis selv skrevet et Google-mashup, der ved hjælp af to API-kald først henter informationer om alle folketingspolitikere og deres udlandsrejser, og dernæst henter oplysninger om udvalgsrejser med tilhørende udgifter og rejsedestinationer.

Resultatet er en liste over de ti politikere, der oftest sætter sig ind i flyet og rejser udenlands. Den enkelte politikers rejseudgifter fremgår, og rejserne vises direkte på et kort i Google Maps.

Michael Friis' webservice kan levere data i både XML- og JSON-formatet og benytter OData-protokollen.

Ifølge Michael Friis er den største udfordring at afgøre, hvornår data fra folketinget.dk er gode nok, og hvornår de er lige til at smide ud.

»Foreløbige referater lægges for eksempel meget hurtigt ud på folketinget.dk, så jeg skal kigge dybt i hjemmesidens tags for at afgøre, hvornår det endelige referat ligger klar. Et andet problem ved den relancerede hjemmeside er, at paragraf 20-spørgsmål lægges ud i PDF-format, hvor det tidligere var i klar tekst,« forklarer Michael Friis.

Samtidig er det heller ikke altid, at HTML-koden bag folketinget.dk overholder W3C's standarder, siger han.

Folketinget.dk bør være bekymret

Michael Friis mener dog, at det er positivt, at folketinget.dk rent faktisk lægger så mange data ud, som det er tilfældet.

Du siger selv, at du reelt ikke har fået lov til at skrælle data af folketinget.dk. Hvad tror du, holdningen er til det i Folketingets it-afdeling?

»Hvis jeg var dem, ville jeg da være bekymret, fordi de mister noget kontrol over deres data. Men jeg håber også, at det kan få dem til at indse, at deres data er så interessante, at de selv kan gøre mere for at publicere dem,« siger Michael Friis.

Michael Friis vandt tidligere på året 100.000 kroner i Videnskabsministeriets konkurrence Offentlige Data i Spil.

Den pengepose er der endnu ikke taget hul på, og Michael Friis agter at bruge nogle af pengene til en konkurrence om, hvem der kan bruge hans nye API mest kreativt.

Version2 forsøger i øjeblikket at indhente en kommentar fra Folketingets it-afdeling.

Send Tweet
Udskriv

IT-job & karriere

  • Se alle it-job
  • Importer din kompetenceprofil fra LinkedIn
Skarp C#-udvikler søges til fast stilling i spændende virksomhed i Østjylland
Udgivet 8. feb 9.17
Ambitiøs embedded udvikler søges til spændende fast stilling
Udgivet 23. feb 8.38
Udviklingschef til fast stilling
Udgivet 21. feb 12.40
SAP applikationskonsulent - PP (6763)
Udgivet 22. feb 17.40

Kommentarer (16)

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Mikkel Meister 24. sep. 2010 - 10.54
 
Læs også...

... Version2-blogger Tommy Dejbjerg Pedersens indlæg om samme emne.

http://www.version2.dk/artikel/16320-hacking-the-government-folkets-ting

Mvh Mikkel, v2.dk

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Henrik Pedersen 24. sep. 2010 - 11.12
 
Woaw!

Respekt for den mand :) En ting er at scrape data fra en hjemmeside, en helt anden ting er at gøre det i SÅ stor stil :)

I øvrigt så synes jeg at det er mystisk at vores moderne Danmark, ikke kan finde ud af at have flere offentlige API'er. Jeg har fx været nød til at bygge et ret stort .NET bibliotek for at tilgå DMI's data. Burde vi ikke snart kunne nå dertil hvor offentlig transport, el og vandforsyning, folketinget og mange andre, kunne lave offentlige API'er?

Jeg arbejder lige nu på at få adgang til data via minmaaler.dk og gemme det i mine egne databaser. Nøjs hvor er det surt arbejde ...

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Anonym (ikke efterprøvet) 24. sep. 2010 - 11.21
 
Re: Woaw!
øvrigt så synes jeg at det er mystisk at vores moderne Danmark, ikke kan finde ud af at have flere offentlige API'er

Det er såmænd ikke så svært.

Nu har vi jo mere eller mindre kastet os over XML, så:
Backend:
Fabrikér data i XML, som kan accesses via WS/REST/RPC m.m.

Det er (forhåbentlig)strukturerede data.

Middle:
Lav en XML->HTML evt. via XSLT, så klienter kan tilgå disse.

På den måde opfylder man både det struktuele behov samt det visuelle behov.

(Man kan lave lavere niveauer end XML, som tilgodeser performance, og kan tilgås med andre protokoller, men det er vist 'lost knowledge').

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Martin Jensen 24. sep. 2010 - 11.22
 
DSB(!) er begyndt...

@Henrik

Jeg er helt enig men DSB er begyndt på det og forhåbentlig kan det initiativ trække de andre trafikselskaber med...: http://dsblabs.dk/

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Kim Henriksen 24. sep. 2010 - 11.30
 
Kan vi ikke få et API

som kan fortælle os hver gang politikerne dummer sig ;-)

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Niels Rasmussen 24. sep. 2010 - 12.04
 
Alternativ FT-API

HvemStemmerHvad udbyder også en uofficiel API med fokus på stemmeafgivelser i FT, se: http://www.hvemstemmerhvad.dk/api/api.php

FT har tidligere fortalt at de ønskede at udvikle en API, men ikke fandt resourcer til det...

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Simon Kibsgård 24. sep. 2010 - 12.35
 
Simon Kibsgård

God generel blog om offentlige data og API: http://taltilmasserne.dk

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Klaus Silberbauer 24. sep. 2010 - 13.10
 
"Kaster i grams"? Hvorfor så negativt.

taltilmasserne.dk kaster håndtegn til Friis her: http://taltilmasserne.dk/index.php/2010/09/haandtegn-til-michael-friis-o...

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Morten K. Thomsen 24. sep. 2010 - 14.19
 
Re: "Kaster i grams"? Hvorfor så negativt.

Hej Klaus
Den Danske Ordbog definerer "kaste i grams" sådan her: "kaste penge el. andre kostbarheder ud i flæng til flere personer som kappes om at få fat i dem"

Der lå således ingen negative intentioner bag Version2's brug af udtrykket.

Venlig hilsen Morten, Version2.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Klaus Silberbauer 24. sep. 2010 - 14.24
 
Re: "Kaster i grams"? Hvorfor så negativt.

Hej Morten

Fair nok - jeg har misforstået værdiladningen af udtrykket (lidt flovt for en gammel Nordisk Filolog).

Men jeg er meget glad for, at rubrikken ikke er så negativ som jeg læste den.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Simon Kibsgård 24. sep. 2010 - 14.32
 
Hvor smukt

...Og lad os så få kastet nogle flere offentlige data i grams. Jeg vil gerne deltage i hoben og hvor er det fedt, at vi ikke behøver at kappes så længe der er API-keys til alle!

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Claus Pedersens billede
Claus Pedersen 24. sep. 2010 - 15.37
 
Re: Woaw!

Nu lever DMI jo af at sælge deres data, så du kan sagtens får adgang til dem - f.eks. via XML filer. Hvis du altså betaler:
http://www.dmi.dk/dmi/index/erhverv/standardprodukter.htm

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Henrik Pedersen 24. sep. 2010 - 16.43
 
Re: Woaw!

@Stig Johansen
Synes du skal sende den fine opsummering til politikkerne så vi kan få dem til at kigge på hvor let det er - jeg ved det godt :)
(no offense)

@Martin Jensen
Håber jeg godt nok også... Jeg har desværre ikke så meget at bruge DSB's API til, men jeg så virkelig gerne et for landets busser som jeg også har nævnt tidligere. Så meget for "en af verdens førende IT-nationer...

@Claus Pedersen
Det vidste jeg faktisk slet ikke.. Håber ikke de har noget imod mit hjemmeautomatiserings system scraper deres website et par gange om dagen.
Nårh whatever, de kan sikkert ikke registrerer forskel på webclienten i .NET og min standard browser (giver den med vilje HTTP headers der hjælper med camouflagen) :)

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Claus Pedersens billede
Claus Pedersen 24. sep. 2010 - 19.45
 
Re: Woaw!

Alternativt kunne du overveje at bruge dette API:
http://developer.yahoo.com/weather/

Jeg har ikke brugt det selv, men har overvejet det flere gange. Jeg ved ikke hvor gode deres data er om DK.
Det er gratis til non-profit brug.

/Claus

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Henrik Pedersen 24. sep. 2010 - 21.35
 
Re: Woaw!

Jeg har allerede haft kig på de alternative API'er og ingen synes at tilbyde de samme muligheder som jeg har med mit eget scrapingbibliotek som går over DMI.

Fx har jeg adgang til pollendata, vindretninger, vindhastigheder, UV index og meeeeeget mere, plus jeg har vejrudsigten både på dansk og engelsk. Samtidigt med jeg selv har lavet en masse hjælpeklasser til, at validere og genkende data.

Har fx ikke set funktionen:
Get_UV_Danger_Level(Vejrtype)
nogle andre steder endnu og den er dejlig at have til automatiske advarsler om forhøjet UV.

Når nok selvros, bare rolig folkens jeg skal nok komme til at græde den dag de ændrer deres layout! :)

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Anonym (ikke efterprøvet) 30. sep. 2010 - 09.34
 
Re: Woaw!
@Stig Johansen Synes du skal sende den fine opsummering til politikkerne så vi kan få dem til at kigge på hvor let det er - jeg ved det godt :) (no offense)

Det er en lost battle - been there, done that.

Jeg blev faktisk hentet ind som en del af starten på 'XML-projektet' (aka OIO...)

Problemet var bare at flertallet bestod af ikke vidende personer, som aldrig havde 'rørt' materien.

Jeg kunne bidrage med erfaringer fra 'papirløse obligationer' ('83) samt decentral (near) real time børshandel ('88), men 'flertallet' skulle have støbt det her 'monument', så de kunne komme videre i deres karriere.

Men inden for EDB/IT eksisterer der det mærkelige fænomen, at alle (nye) ved bedre, og erfaringerne er ligegyldige.

Det groteske er jo, at det er logistikken (og interoperabiliteten), der er issuet, og ikke værktøjerne.

Held og lykke med dit scraping værktøj, men som du selv er inde på, så vil man få et stigende problem, ikke mindst med differentieret HTML fra .NET samt ændret 'layout'.

Den rigtige måde ville dog være at lave multiple layers, hvor strukturerede data kan tilgås via et (veldefineret) API - selvfølgelig med versionsstyring.

Men vi er nok ude i 'burhønseeffekten', hvor det 'billigste' vinder, uagtet det er lavkvalitet.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer

Tilføj kommentar

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Log ind herunder eller opret en bruger for at skrive kommentarer
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?

Seneste nyt

Windows Server 8 kan slå flere netværkskort sammen til én storage-kanal

Udgivet 23. feb 7.57Opdateret 23. feb 7.57

Galleri: Asus Eee Pad Transformer Prime

Udgivet 23. feb 6.59Opdateret 23. feb 6.59

Anmeldelse af Asus Transformer Prime: Dødlækker tablet, men ingen seriøs ultrabærbar

Udgivet 23. feb 6.59Opdateret 23. feb 6.59

15 kommuner køber it-systemer for 300 millioner i kæmpeudbud

Udgivet 22. feb 15.40Opdateret 22. feb 15.40

Danske Bank droppede ekstra sikkerhed: Troede NemID var sikker

Udgivet 22. feb 14.53Opdateret 22. feb 14.53
Flere it-nyheder »
Få it-nyheder og blogs hver dag med Version2's nyhedsbrev.

Seneste debat

  1. Windows Server 8 kan slå flere netværkskort sammen til én storage-kanal

    2 comments.
    Last update 1 minut 23 sekunder
    Skrevet af Christian Wilken
  2. Anmeldelse af Asus Transformer Prime: Dødlækker tablet, men ingen seriøs ultrabærbar

    3 comments.
    Last update 6 minutter 36 sekunder
    Skrevet af Kristoffer Olsen
  3. 44 procent af CSC's projekter til staten er forsinkede

    7 comments.
    Last update 22 minutter 14 sekunder
    Skrevet af David Nielsen
  4. Danske Bank droppede ekstra sikkerhed: Troede NemID var sikker

    6 comments.
    Last update 40 minutter 38 sekunder
    Skrevet af Thomas Bundgaard
  5. Apple må tage en voldsom beslutning i år

    28 comments.
    Last update 1 time 32 minutter
    Skrevet af Max Tobiasen
  6. KMD's monopol igen-igen

    1 comment.
    Last update 3 timer 47 minutter
    Skrevet af Jan Pedersen
  7. Censurens grænser

    59 comments.
    Last update 5 timer 9 minutter
    Skrevet af Rene Andersen
  8. Digital video med Linux: Hvilken HW bruger du?

    25 comments.
    Last update 7 timer 19 minutter
    Skrevet af Kent Knudsen
Mere debat »

Information

  • Kontakt redaktionen
  • Job- og annoncesalg
  • Teknisk support
  • Om Version2
  • Brugerbetingelser
  • Privatlivspolitik

Aktuelle emner

  • Agil udvikling
  • Android
  • Bruttolønsordning
  • Business Intelligence
  • Cloud computing
  • Digitaliseringsstyrelsen
  • HTML5
  • Harddisk-priser
  • IE9
  • Intranet
  • It-sikkerhed
  • Kindle Fire
  • Multimedieskat
  • NemID
  • OS X Lion
  • Open source CMS
  • Projektledelse
  • Scrum
  • Sharepoint intranet
  • Storage
  • Ubuntu 11.10
  • Virtualisering
  • Windows 8
  • Windows Phone 7
  • iOS 5
  • iPhone 4S

Tjenester

  • Android-app
  • iPhone-app
  • RSS-feeds
Følg @version2dk
Få it-nyheder og blogs hver dag med Version2's nyhedsbrev.

Version2 udgives af

  • Mediehuset Ingeniøren A/S work Skelbækgade 4 1717 København V
  • Tlf. work 33265300