Gå til hovedindhold
Version2 it for professionelle
Forsiden

Hovedmenu

  • It-nyheder
  • Blogs
  • It-job
  • It-firmaer
  • Emner
  • Opret bruger
  • Log ind
Se kommentarer (19)
Emner Lovgivning, Elektronisk sags- og dokumenthåndtering (ESDH), Digital forvaltning

En Tids-dannelsesrejse

Af Poul-Henning Kamp 6. februar 2010 kl. 22:36

Vi indstiller tidsmaskinen på 2020 og trykker start...

Statens arkiver er netop blevet færdige med at lægge staten Danmarks historie på nettet. Alle gamle dokumenter er scannet og OCR-læst og sammen med alle computerfilerne, helt tilbage til 1990erne, er det lagt i en søgemaskine så borgerne kan finde og læse alle offentligt tilgængelige dokumenter.

Nu kan politikerne ikke "begrave" ting mere, ved at arkivere dem under forkert beskrivelse eller departement, vi har fået en gennemsigtig og kontrollerbar forvaltning.

Et særligt hit er Øresundstolden, der giver historikerne og økonomer et hidtil uhørt præcist viden over en 400 årig epoke.

Men en spin-doktor opdager netop nu, at takket være de rigt formatterede filformater der bruges, kan man skrive et dokument som en stor tabel, hvor hver celle har en unik style-sheet reference og kun et enkelt bogstav, hvilket får søgemaskinen til at opfatte dokumentet som en hel masse bogstaver der intet har med hinanden at gøre og på den måde "forsvinde" dokumentet i søgemaskinen.

Hvis man ved at dokument 2020/BS1293-07 er spændende, kan man selvfølgelig finde det, men hvis man søger efter "Memo vedr. eksekvering af aftalen fra 1998 om køb af JSF" finder man ingenting.

Journalister ved de tilbageværende to dansksprogede nyhedsmedier bliver ganske vist ved med at løbe ind i mumlen om denne politiske rævekage, men uanset hvad de søger på, finder de intet og henlægger derfor sagen som vild rygtedannelse.

Vi smutter videre med med tidsmaskinen, men bliver reroutet til et holding-pattern i 1992.

Mens vi hænger og venter, lytter vi lidt med på den antikke trafik på ARPA-net.

Det er faktisk grunden til at man har placeret et holding pattern netop dengang: rigtig mange rejsende glemmer helt tiden, mens de vantro lytter til diskussioner om "OSI protokoller", "IPng", "Multicast" og mange andre klassikere.

Vi har indstillet modtageren på "Berømte personer" og rammer ned i, hvad der bedst kan beskrives som "højlydte uenigheder" imellem selveste manden der skrev forskningsoplægget der førte til Internettet og manden der dokumenterede hvordan det virkede så det gjorde det.

I det ene ringhjørne har vi Prof. Dave Mills, kendt for sin utrolige timing og skumle fortid blandt "the Bandits of the Beltway", men nu professor for sit eget mikroskopiske CS-department på University of Delaware.

De fleste ville betænke sig ved at give sig i lag med en mand der har en signeret guidance-computer fra et Minuteman 1 missil stående på sit kontor, men i det andet ringhjørne finder vi den frygtløse John Postel, ikke mindre respekteret og og frem for alt enerådende redaktør af "RFC" dokumenterne,med et deltidsjob som IANA-julemand med sækken fuld af IP numre til alle artige netværksfolk.

Stridens æbler er RFC1305, der minder mere om en doktordisputats end en protokolstandard og som i modsætning til alle andre RFC-er, både før, og som vi rejsende fra fremtiden ved: efter, ikke foreligger som en flad ASCII fil, men som en Postscript fil, med matematiske formler, proportionalskrift og alle mulige andre grafiske godter.

Diskussionen kommer vidt omkring, men kernen i den, det helt centrale argument, der får John Postel til at afvise alle efterfølgende RFC-indskud hvis de ikke foreligger i helt fladt ASCII format er dette: Man kan ikke søge i en postscriptfil med grep(1).

Vi modtager melding fra tidskontrollen og må vende hjem, der er tidsprop omkring anden verdenskrig, en eller anden har, igen, forsøgt at myrde Hitler.

Vi er lidt triste over ikke at have nået at se Malling-Hansen opfinde skrivekuglen på Døvstumme instituttet i 1865, men man kan ikke nå alting, selv ikke med en tidsmaskine.

Mens vi stiger ud af vores Morris (model Tardis), spekulerer vi over, om det ikke burde være et af kravene til officielle dokumentformater, at dokumenter per definition er søgbare og at denne søgbarhed ikke kan forhindres eller besværliggøres ?

Burde vi ikke som professionelle IT folk, insistere på at kun flade filer, i et præcist tilstrækkeligt tegnsæt, f.eks ISO8859-1, er godt og sikkert nok til offentlig brug ?

phk

Send Tweet
Udskriv
Billede af Poul-Henning KampOm Poul-Henning Kamp

Kommentarer (19)

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Michael Deichmann 7. feb. 2010 - 06.49
 
OCR?

P-H,
hvis du går tilbage til tiden omkring vores barndom vil du blive overrasket over hvor meget håndskrift og tilskrift i margener der findesi de officielle analer.
Jeg har måske fantasi til at forestille mig maskinaflæsning af håndskriften, men svært ved at se hvordan man skal håndtere tilskrivningerne.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Eskild Nielsen 7. feb. 2010 - 12.54
 
Re: OCR?

Udover den OCR-ede tekst, som danner basis for søgning, så skal der vel være høj-opløselige foto a dokumentet, så man kan se dets generelle fremtoning.

håndskrevne rettelser, og rettelser med kvajelak og lignende findes givet også på arkivalier langt op mod vor tid.

/esni

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Peter Lind 7. feb. 2010 - 14.41
 
Formater
Burde vi ikke som professionelle IT folk, insistere på at kun flade filer, i et præcist tilstrækkeligt tegnsæt, f.eks ISO8859-1, er godt og sikkert nok til offentlig brug ?

Nej. Til gengæld kan vi sagtens insistere på et format, hvor al informationen er søgbar - eksempelvis ved at informationen ligger i filen i et tilgængeligt format der er nemt at konvertere til flad tekst men også kan repræsenteres på forskellig vis, eksempelvis ved at styles.

Det gav mening at RFC blev holdt i ascii dengang - men vi har siden da udviklet os en smule og der er nu bedre muligheder for at søge i dokumenter end grep. Hvad vi bør insistere på er at dokumenter fra det offentlige er tilgængelige og søgbare, nu og i fremtiden - formatet er underordnet, der er forskellige muligheder.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Poul-Henning Kamps billede
Poul-Henning Kamp 7. feb. 2010 - 15.11
 
Re: Formater
Nej. Til gengæld kan vi sagtens insistere på et format, hvor al informationen er søgbar[...]

Hvordan sikrer vi, at informationen faktisk er søgbar og ikke skjules med tricks som det ovenfor beskrevne ?

Poul-Henning

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Flemming Riis 7. feb. 2010 - 15.24
 
vi ved vel også som it folk

at hvis data er vigtigt nok skal de nok blive læst , man kan tyde skrift tegn fra folkefærd der ikke har levet i flere tusinde år.

fordi ting kan lages er det ikke sikker det har en værdi om 100 år og hvis det har skal det nok blive analyseret at googleV12SuperBot.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Peter Lind 7. feb. 2010 - 17.25
 
Hvordan sikrer vi, at informationen faktisk er søgbar og ikke skjules med tricks som det ovenfor beskrevne ?

Eksempelvis ved at hive al teksten ud af dokumentet før vi indekserer. PDF-filer er her skræmme-eksemplet på hvor dårligt information kan struktureres i et dokument og stadig præsenteres korrekt - og i lang tid har PDF-dokumenter være nærmest umulige at hive information ud af af samme årsag. Men der er efterhånden en del software, der næsten uden informationstab kan konvertere PDF-filer til mere brugbare formater (jeg forestiller mig at i år 2020 er denne teknologi blot endnu bedre og at der derfor ikke vil være et tab overhovedet), så det er faktisk ikke et lige så stort problem som det har været.

Derudover kunne vi jo uden de helt store problemer køre alle dokumenter fra det offentlige igennem et par hurtige sanity-checks inden de blev offentliggjort: et dokument, der udelukkende består af en kæmpemæssig tabel med et bogstav i hver celle er ikke videre svært at genkende som problematisk per automatik - derefter behøver man blot et par politikere fra forskellige partier til at tjekke om dokumentet faktisk er problematisk eller ej. Noget i denne stil parret med en stor bøde skal nok afskrække spin-doktorer fra at prøve noget uldent.

Derudover kan du jo køre alskens andre tjek på dokumenter, såsom et Bayes-baseret tjek ud fra kendte, gode dokumenter, dictionary-lookups, osv.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
\n \r 7. feb. 2010 - 17.59
 
flade filer

> Burde vi ikke som professionelle IT folk, insistere på at
> kun flade filer...

Jeg kan kun være enig, uden jeg er dokument ekspert så ser jeg ikke nogen bedre løsning end en flad ASCII fil. Desvære så er det aldrig kode hoveder der beslutter den slags så der røg den ide nok i sovsen.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Michael N. Steen 8. feb. 2010 - 01.57
 
Søgbarhed

Selvfølgeligt er det en problematik, vi skal tage alvorligt og være opmærksomme på, men jeg tror nu ikke problemet er så stort.
En dokumentfil, der kan parses og renderes, kan også strippes for formateringstags og gøres til en flad tekstfil om nødvendigt. Især hvis vi benytter åbne dokumentformater, og andet vil vel være tåbeligt.

Jeg ser en større fare i indskannede tekster. Det kan være fuldt legitimt, hvis de kun findes på tryk eller skrift, men kan også være et forsøg på, at gemme kontroversiele tekster som billeder.

Her må man nok sætte sin lid til OCR-teknikken.

Mvh
Michael Steen

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Christian Nobel 8. feb. 2010 - 09.41
 
Hvorfor lige ISO8859-1?

Ville det ikke være lidt smartere at benytte unicode?

/Christian

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Poul-Henning Kamps billede
Poul-Henning Kamp 8. feb. 2010 - 10.15
 
Re: Hvorfor lige ISO8859-1?
Ville det ikke være lidt smartere at benytte unicode?

Unicode er en stor del af problemet.

Unicode er gået helt amok med underlige tegn[1] og der kan laves alle mulige ombytninger der vil gøre livet surt for en søgemaskine, teknikker som spammere og svindlere allerede er i fuld gang med at udnytte.

Overvej f.eks et lille 'o', hvor mange tegn tror du der er i Unicode der ligner et lille 'o', men som ikke er det ?[2]

Problemet i mine øjne, både med OOXML, ODF og PDF, er at den eneste pålidelige måde at søge i dokumenterne på, er at render dem grafisk og køre OCR på den rendering, så det tegn et menneske opfatter som et lille 'o' også af søgemaskinen opfattes som et sådant og ikke som 0x03bf, 0x043e, 0x0585, 0x12d0, 0x1d11, 0x1d0c, 0x1d3c, 0x25cb osv. osv.

Dernæst kommer muligheden for at inkludere en font i dokumentet, som anvender en scrambled encoding, således at tegnværdierne hverken er iso eller unicode kompatible...

Derfor skrev jeg "et præcist tilstrækkligt tegnsæt" hvilket til danske formål er ISO8859-1.

Poul-Henning

[1] http://www.unicode.org/~scherer/emoji4unicode/snapshot/utc.html

[2] Overvej derefter visdommen i unicode DNS navne, elle.r blot HTML link beskrivelser og f.eks navnet 'google'

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Martin Juhl Jørgensen 8. feb. 2010 - 12.11
 
Re: Hvorfor lige ISO8859-1?

Problemet med flade filer er at præsentationen og dermed selve essensen af indholdet i dokumentet kan blive for uoverskuelig i nogle tilfælde.

Problemet i mine øjne, både med OOXML, ODF og PDF, er at den eneste pålidelige måde at søge i dokumenterne på, er at render dem grafisk og køre OCR på den rendering...

Hvor langt tid tager det at køre en OCR på et dokument i 2020? (har ingen idé om hvor lang tid det tager i dag)

En mulig løsning ville måske være at tillade flade filer i f.eks. ISO8859-1 og derudover også OOXML, ODF, PDF, osv. Alle andre formater end de flade filer skulle så som du selv siger blive renderet og OCR scannet. Samtidigt burde andre typer algoritmer, som også tidligere nævnt i kommentarene, gætte sig frem til indholdet ved at se bort fra tabelstrukturer og lign. Sammenhold resultatet fra ORC scanningen og fra indholds-gætteriet og så burde man kunne få noget brugbart ud af det.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Poul-Henning Kamps billede
Poul-Henning Kamp 8. feb. 2010 - 12.40
 
Re: Hvorfor lige ISO8859-1?
Hvor langt tid tager det at køre en OCR på et dokument i 2020? (har ingen idé om hvor lang tid det tager i dag)

Spørgsmålet er ikke hvor lang tid det tager, men om det bliver gjort, eller denne "gemt i fuld offentlighed" feature forbliver åben ?

Poul-Henning

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Peter Lind 8. feb. 2010 - 14.06
 
Re: Hvorfor lige ISO8859-1?

Hvis du kan lovgive om format-brug, så kan du også lovgive om processen i forbindelse med udgivelse af dokumenterne. Dermed kan du sikre dig at alle dokumenter kommer igennem en proces, der resulterer i en søgbar tekst. I forhold til gamle dokumenter kan du køre OCR på dem - i forhold til nye dokumenter kan du blot gøre det lovpligtigt at udforme dokumentet, så det er muligt at hive den tilsvarende tekst ud af det, uden problemer.

Flade ascii-filer løser nogen problemer, men har også den konsekvens, at det meste af strukturen forsvinder, samt at mange ting ikke længere er mulige, såsom embedded media (grafik, eksempelvis).

Et andet problem er så selvfølgelig brugen af encoding: ISO8859-1 er ikke nok til brug af det offentlige, UTF-8 ville være bedre. Det giver så selvfølgelig igen problemet om at man kan "skjule" information ... men her er der igen muligheder for at køre sanity checks på dokumenter. Eksempelvis vil det være meget sjældent at du ser karakterer der ligner "o" i danske ord - så hvis noget i den stil dukker op flagger man det, tjekker det og hvis noget er forsøgt skjult stikker man bøder ud til folk så de kan lære det.

At der er problemer ved at bruge UTF-8 er ikke nogen grund til ikke at bruge UTF-8 - ligesom der heller ikke er grund til at droppe html i emails fordi nogen har fundet ud af at misbruge det. I stedet bør vi udvikle processer så vi fanger problemerne og de folk, der prøver at udnytte systemet - det er langtfra umuligt.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Poul-Henning Kamps billede
Poul-Henning Kamp 8. feb. 2010 - 14.50
 
Re: Hvorfor lige ISO8859-1?
Eksempelvis vil det være meget sjældent at du ser karakterer der ligner "o" i danske ord - så hvis noget i den stil dukker op flagger man det, tjekker det og hvis noget er forsøgt skjult stikker man bøder ud til folk så de kan lære det.

Hvem skal køre det check ?

Journalisterne ?

Poul-Henning

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Martin Juhl Jørgensen 8. feb. 2010 - 23.51
 
Re: Hvorfor lige ISO8859-1?
Spørgsmålet er ikke hvor lang tid det tager, men om det bliver gjort, eller denne "gemt i fuld offentlighed" feature forbliver åben ?

Ja lige præcist. Der er vel kun en af måde at få det afklaret på og det er vel at spørge?

Dernæst er der vel 2 måder at det kan blive lavet på

1) Der er en med fornuft der bestemmer det uden/inden andre blander sig og udsætter projektet i al evighed

2) En skandale rammer nyhederne og presser politikkerne til at lovgive på området.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Donald Axel 10. feb. 2010 - 02.28
 
Re: Hvorfor lige ISO8859-1?

Det lyder som den rigtige måde, men det er urealistisk at få gennemført alt doc i flade (grep-bare) ASCII-filer. På den anden side sagde man også i min barndom at folk ikke kunne holde op med at ryge.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Jan Gundtofte-Bruun 10. feb. 2010 - 14.56
 
Re: OCR?

Michael Deichmann:

i de officielle analer

Åh, vil du ikke nok være rar at bruge to n'er fremover? Tusind tak! :-)

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Carsten Sonne 10. feb. 2010 - 17.57
 
Re: Hvorfor lige ISO8859-1?
[2] Overvej derefter visdommen i unicode DNS navne, elle.r blot HTML link beskrivelser og f.eks navnet 'google'

Det er nok mere et spørgsmål om lige vilkår for lande der ikke er latinsk sprogede.

Alternativet, forskellige tegnsæt (character map/code page), er jo nok end en endnu værre løsning.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Carsten Sonne 10. feb. 2010 - 18.07
 
Arkiveringsformål
Burde vi ikke som professionelle IT folk, insistere på at kun flade filer, i et præcist tilstrækkeligt tegnsæt, f.eks ISO8859-1, er godt og sikkert nok til offentlig brug ?

Flade filer strippet for enhver form for formatering, der ikke er en del af tegnsættet, er nok lige at stramme den. Derimod vil jeg personligt mene at ISO8859-1 er et rimeligt krav.

Formateringen fra eksisterende dokumentformater kunne evt. konverteres til et helt simpelt layout-sprog, der lå ved siden af den egentlige tekst, i stedet for sovset sammen med teksten. Simpelt i design, men ikke nødvendigvis i mængden af funktioner.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer

Tilføj kommentar

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Log ind herunder eller opret en bruger for at skrive kommentarer
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?

Seneste nyt

Domæne-forening: Lov om .aarhus og .cph var for tynd

Udgivet 8. feb 16.16Opdateret 8. feb 16.16

Sygeplejerskers dobbeltindtastning af data bliver til 12,5 mio. timer ved pc'en årligt

Udgivet 8. feb 15.45Opdateret 8. feb 15.45

Dansk spil-indmad i LG's nye tv-apparater

Udgivet 8. feb 15.06Opdateret 8. feb 15.06

TDC fyrer CSC

Udgivet 8. feb 14.26Opdateret 8. feb 15.10

Version2's læsere forudså Polsag-kollaps

Udgivet 8. feb 13.48Opdateret 8. feb 13.48
Flere it-nyheder »
Få it-nyheder og blogs hver dag med Version2's nyhedsbrev.

Seneste debat

  1. XBMC på fit-PC3

    18 comments.
    Last update 33 minutter 34 sekunder
    Skrevet af Peter Toft
  2. Anonyme kilder tæt på Polsag: Derfor gik det helt galt

    23 comments.
    Last update 1 time 21 minutter
    Skrevet af Nikolaj Brinch Jørgensen
  3. Stop SOPA, PIPA, ACTA, TPP og alle dem der kommer efter

    34 comments.
    Last update 1 time 57 minutter
    Skrevet af Nikolaj Brinch Jørgensen
  4. Nyt værktøj knækker diskkryptering på Mac og Windows på under én time

    6 comments.
    Last update 2 timer 10 minutter
    Skrevet af Thomas Bundgaard
  5. 500.000.000.000 kr. for Facebook er ikke dyrt

    10 comments.
    Last update 2 timer 13 minutter
    Skrevet af Nikolaj Brinch Jørgensen
  6. SF'er til ACTA-kritikere: Jeg har vundet kampen for jer

    23 comments.
    Last update 2 timer 59 minutter
    Skrevet af Peter Makholm
  7. Sygeplejerskers dobbeltindtastning af data bliver til 12,5 mio. timer ved pc'en årligt

    3 comments.
    Last update 3 timer 7 minutter
    Skrevet af Thomas Hansen
  8. It-advokat: Nu går grænsebommene ned over internettet

    2 comments.
    Last update 3 timer 43 minutter
    Skrevet af Peter Mogensen
Mere debat »

Information

  • Kontakt redaktionen
  • Job- og annoncesalg
  • Teknisk support
  • Om Version2
  • Brugerbetingelser
  • Privatlivspolitik

Aktuelle emner

  • Agil udvikling
  • Android
  • Bruttolønsordning
  • Business Intelligence
  • Cloud computing
  • Digitaliseringsstyrelsen
  • HTML5
  • Harddisk-priser
  • IE9
  • Intranet
  • It-sikkerhed
  • Kindle Fire
  • Multimedieskat
  • NemID
  • OS X Lion
  • Open source CMS
  • Projektledelse
  • Scrum
  • Sharepoint intranet
  • Storage
  • Ubuntu 11.10
  • Virtualisering
  • Windows 8
  • Windows Phone 7
  • iOS 5
  • iPhone 4S

Tjenester

  • Android-app
  • iPhone-app
  • RSS-feeds
Følg @version2dk
Få it-nyheder og blogs hver dag med Version2's nyhedsbrev.

Version2 udgives af

  • Mediehuset Ingeniøren A/S work Skelbækgade 4 1717 København V
  • Tlf. work 33265300