
En Tids-dannelsesrejse
Vi indstiller tidsmaskinen på 2020 og trykker start...
Statens arkiver er netop blevet færdige med at lægge staten Danmarks historie på nettet. Alle gamle dokumenter er scannet og OCR-læst og sammen med alle computerfilerne, helt tilbage til 1990erne, er det lagt i en søgemaskine så borgerne kan finde og læse alle offentligt tilgængelige dokumenter.
Nu kan politikerne ikke "begrave" ting mere, ved at arkivere dem under forkert beskrivelse eller departement, vi har fået en gennemsigtig og kontrollerbar forvaltning.
Et særligt hit er Øresundstolden, der giver historikerne og økonomer et hidtil uhørt præcist viden over en 400 årig epoke.
Men en spin-doktor opdager netop nu, at takket være de rigt formatterede filformater der bruges, kan man skrive et dokument som en stor tabel, hvor hver celle har en unik style-sheet reference og kun et enkelt bogstav, hvilket får søgemaskinen til at opfatte dokumentet som en hel masse bogstaver der intet har med hinanden at gøre og på den måde "forsvinde" dokumentet i søgemaskinen.
Hvis man ved at dokument 2020/BS1293-07 er spændende, kan man selvfølgelig finde det, men hvis man søger efter "Memo vedr. eksekvering af aftalen fra 1998 om køb af JSF" finder man ingenting.
Journalister ved de tilbageværende to dansksprogede nyhedsmedier bliver ganske vist ved med at løbe ind i mumlen om denne politiske rævekage, men uanset hvad de søger på, finder de intet og henlægger derfor sagen som vild rygtedannelse.
Vi smutter videre med med tidsmaskinen, men bliver reroutet til et holding-pattern i 1992.
Mens vi hænger og venter, lytter vi lidt med på den antikke trafik på ARPA-net.
Det er faktisk grunden til at man har placeret et holding pattern netop dengang: rigtig mange rejsende glemmer helt tiden, mens de vantro lytter til diskussioner om "OSI protokoller", "IPng", "Multicast" og mange andre klassikere.
Vi har indstillet modtageren på "Berømte personer" og rammer ned i, hvad der bedst kan beskrives som "højlydte uenigheder" imellem selveste manden der skrev forskningsoplægget der førte til Internettet og manden der dokumenterede hvordan det virkede så det gjorde det.
I det ene ringhjørne har vi Prof. Dave Mills, kendt for sin utrolige timing og skumle fortid blandt "the Bandits of the Beltway", men nu professor for sit eget mikroskopiske CS-department på University of Delaware.
De fleste ville betænke sig ved at give sig i lag med en mand der har en signeret guidance-computer fra et Minuteman 1 missil stående på sit kontor, men i det andet ringhjørne finder vi den frygtløse John Postel, ikke mindre respekteret og og frem for alt enerådende redaktør af "RFC" dokumenterne,med et deltidsjob som IANA-julemand med sækken fuld af IP numre til alle artige netværksfolk.
Stridens æbler er RFC1305, der minder mere om en doktordisputats end en protokolstandard og som i modsætning til alle andre RFC-er, både før, og som vi rejsende fra fremtiden ved: efter, ikke foreligger som en flad ASCII fil, men som en Postscript fil, med matematiske formler, proportionalskrift og alle mulige andre grafiske godter.
Diskussionen kommer vidt omkring, men kernen i den, det helt centrale argument, der får John Postel til at afvise alle efterfølgende RFC-indskud hvis de ikke foreligger i helt fladt ASCII format er dette: Man kan ikke søge i en postscriptfil med grep(1).
Vi modtager melding fra tidskontrollen og må vende hjem, der er tidsprop omkring anden verdenskrig, en eller anden har, igen, forsøgt at myrde Hitler.
Vi er lidt triste over ikke at have nået at se Malling-Hansen opfinde skrivekuglen på Døvstumme instituttet i 1865, men man kan ikke nå alting, selv ikke med en tidsmaskine.
Mens vi stiger ud af vores Morris (model Tardis), spekulerer vi over, om det ikke burde være et af kravene til officielle dokumentformater, at dokumenter per definition er søgbare og at denne søgbarhed ikke kan forhindres eller besværliggøres ?
Burde vi ikke som professionelle IT folk, insistere på at kun flade filer, i et præcist tilstrækkeligt tegnsæt, f.eks ISO8859-1, er godt og sikkert nok til offentlig brug ?
phk
Kommentarer (19)
P-H,
hvis du går tilbage til tiden omkring vores barndom vil du blive overrasket over hvor meget håndskrift og tilskrift i margener der findesi de officielle analer.
Jeg har måske fantasi til at forestille mig maskinaflæsning af håndskriften, men svært ved at se hvordan man skal håndtere tilskrivningerne.
Udover den OCR-ede tekst, som danner basis for søgning, så skal der vel være høj-opløselige foto a dokumentet, så man kan se dets generelle fremtoning.
håndskrevne rettelser, og rettelser med kvajelak og lignende findes givet også på arkivalier langt op mod vor tid.
/esni
Burde vi ikke som professionelle IT folk, insistere på at kun flade filer, i et præcist tilstrækkeligt tegnsæt, f.eks ISO8859-1, er godt og sikkert nok til offentlig brug ?
Nej. Til gengæld kan vi sagtens insistere på et format, hvor al informationen er søgbar - eksempelvis ved at informationen ligger i filen i et tilgængeligt format der er nemt at konvertere til flad tekst men også kan repræsenteres på forskellig vis, eksempelvis ved at styles.
Det gav mening at RFC blev holdt i ascii dengang - men vi har siden da udviklet os en smule og der er nu bedre muligheder for at søge i dokumenter end grep. Hvad vi bør insistere på er at dokumenter fra det offentlige er tilgængelige og søgbare, nu og i fremtiden - formatet er underordnet, der er forskellige muligheder.
Nej. Til gengæld kan vi sagtens insistere på et format, hvor al informationen er søgbar[...]
Hvordan sikrer vi, at informationen faktisk er søgbar og ikke skjules med tricks som det ovenfor beskrevne ?
Poul-Henning
at hvis data er vigtigt nok skal de nok blive læst , man kan tyde skrift tegn fra folkefærd der ikke har levet i flere tusinde år.
fordi ting kan lages er det ikke sikker det har en værdi om 100 år og hvis det har skal det nok blive analyseret at googleV12SuperBot.
Hvordan sikrer vi, at informationen faktisk er søgbar og ikke skjules med tricks som det ovenfor beskrevne ?
Eksempelvis ved at hive al teksten ud af dokumentet før vi indekserer. PDF-filer er her skræmme-eksemplet på hvor dårligt information kan struktureres i et dokument og stadig præsenteres korrekt - og i lang tid har PDF-dokumenter være nærmest umulige at hive information ud af af samme årsag. Men der er efterhånden en del software, der næsten uden informationstab kan konvertere PDF-filer til mere brugbare formater (jeg forestiller mig at i år 2020 er denne teknologi blot endnu bedre og at der derfor ikke vil være et tab overhovedet), så det er faktisk ikke et lige så stort problem som det har været.
Derudover kunne vi jo uden de helt store problemer køre alle dokumenter fra det offentlige igennem et par hurtige sanity-checks inden de blev offentliggjort: et dokument, der udelukkende består af en kæmpemæssig tabel med et bogstav i hver celle er ikke videre svært at genkende som problematisk per automatik - derefter behøver man blot et par politikere fra forskellige partier til at tjekke om dokumentet faktisk er problematisk eller ej. Noget i denne stil parret med en stor bøde skal nok afskrække spin-doktorer fra at prøve noget uldent.
Derudover kan du jo køre alskens andre tjek på dokumenter, såsom et Bayes-baseret tjek ud fra kendte, gode dokumenter, dictionary-lookups, osv.
> Burde vi ikke som professionelle IT folk, insistere på at
> kun flade filer...
Jeg kan kun være enig, uden jeg er dokument ekspert så ser jeg ikke nogen bedre løsning end en flad ASCII fil. Desvære så er det aldrig kode hoveder der beslutter den slags så der røg den ide nok i sovsen.
Selvfølgeligt er det en problematik, vi skal tage alvorligt og være opmærksomme på, men jeg tror nu ikke problemet er så stort.
En dokumentfil, der kan parses og renderes, kan også strippes for formateringstags og gøres til en flad tekstfil om nødvendigt. Især hvis vi benytter åbne dokumentformater, og andet vil vel være tåbeligt.
Jeg ser en større fare i indskannede tekster. Det kan være fuldt legitimt, hvis de kun findes på tryk eller skrift, men kan også være et forsøg på, at gemme kontroversiele tekster som billeder.
Her må man nok sætte sin lid til OCR-teknikken.
Mvh
Michael Steen
Ville det ikke være lidt smartere at benytte unicode?
Unicode er en stor del af problemet.
Unicode er gået helt amok med underlige tegn[1] og der kan laves alle mulige ombytninger der vil gøre livet surt for en søgemaskine, teknikker som spammere og svindlere allerede er i fuld gang med at udnytte.
Overvej f.eks et lille 'o', hvor mange tegn tror du der er i Unicode der ligner et lille 'o', men som ikke er det ?[2]
Problemet i mine øjne, både med OOXML, ODF og PDF, er at den eneste pålidelige måde at søge i dokumenterne på, er at render dem grafisk og køre OCR på den rendering, så det tegn et menneske opfatter som et lille 'o' også af søgemaskinen opfattes som et sådant og ikke som 0x03bf, 0x043e, 0x0585, 0x12d0, 0x1d11, 0x1d0c, 0x1d3c, 0x25cb osv. osv.
Dernæst kommer muligheden for at inkludere en font i dokumentet, som anvender en scrambled encoding, således at tegnværdierne hverken er iso eller unicode kompatible...
Derfor skrev jeg "et præcist tilstrækkligt tegnsæt" hvilket til danske formål er ISO8859-1.
Poul-Henning
[1] http://www.unicode.org/~scherer/emoji4unicode/snapshot/utc.html
[2] Overvej derefter visdommen i unicode DNS navne, elle.r blot HTML link beskrivelser og f.eks navnet 'google'
Problemet med flade filer er at præsentationen og dermed selve essensen af indholdet i dokumentet kan blive for uoverskuelig i nogle tilfælde.
Problemet i mine øjne, både med OOXML, ODF og PDF, er at den eneste pålidelige måde at søge i dokumenterne på, er at render dem grafisk og køre OCR på den rendering...
Hvor langt tid tager det at køre en OCR på et dokument i 2020? (har ingen idé om hvor lang tid det tager i dag)
En mulig løsning ville måske være at tillade flade filer i f.eks. ISO8859-1 og derudover også OOXML, ODF, PDF, osv. Alle andre formater end de flade filer skulle så som du selv siger blive renderet og OCR scannet. Samtidigt burde andre typer algoritmer, som også tidligere nævnt i kommentarene, gætte sig frem til indholdet ved at se bort fra tabelstrukturer og lign. Sammenhold resultatet fra ORC scanningen og fra indholds-gætteriet og så burde man kunne få noget brugbart ud af det.
Hvor langt tid tager det at køre en OCR på et dokument i 2020? (har ingen idé om hvor lang tid det tager i dag)
Spørgsmålet er ikke hvor lang tid det tager, men om det bliver gjort, eller denne "gemt i fuld offentlighed" feature forbliver åben ?
Poul-Henning
Hvis du kan lovgive om format-brug, så kan du også lovgive om processen i forbindelse med udgivelse af dokumenterne. Dermed kan du sikre dig at alle dokumenter kommer igennem en proces, der resulterer i en søgbar tekst. I forhold til gamle dokumenter kan du køre OCR på dem - i forhold til nye dokumenter kan du blot gøre det lovpligtigt at udforme dokumentet, så det er muligt at hive den tilsvarende tekst ud af det, uden problemer.
Flade ascii-filer løser nogen problemer, men har også den konsekvens, at det meste af strukturen forsvinder, samt at mange ting ikke længere er mulige, såsom embedded media (grafik, eksempelvis).
Et andet problem er så selvfølgelig brugen af encoding: ISO8859-1 er ikke nok til brug af det offentlige, UTF-8 ville være bedre. Det giver så selvfølgelig igen problemet om at man kan "skjule" information ... men her er der igen muligheder for at køre sanity checks på dokumenter. Eksempelvis vil det være meget sjældent at du ser karakterer der ligner "o" i danske ord - så hvis noget i den stil dukker op flagger man det, tjekker det og hvis noget er forsøgt skjult stikker man bøder ud til folk så de kan lære det.
At der er problemer ved at bruge UTF-8 er ikke nogen grund til ikke at bruge UTF-8 - ligesom der heller ikke er grund til at droppe html i emails fordi nogen har fundet ud af at misbruge det. I stedet bør vi udvikle processer så vi fanger problemerne og de folk, der prøver at udnytte systemet - det er langtfra umuligt.
Eksempelvis vil det være meget sjældent at du ser karakterer der ligner "o" i danske ord - så hvis noget i den stil dukker op flagger man det, tjekker det og hvis noget er forsøgt skjult stikker man bøder ud til folk så de kan lære det.
Hvem skal køre det check ?
Journalisterne ?
Poul-Henning
Spørgsmålet er ikke hvor lang tid det tager, men om det bliver gjort, eller denne "gemt i fuld offentlighed" feature forbliver åben ?
Ja lige præcist. Der er vel kun en af måde at få det afklaret på og det er vel at spørge?
Dernæst er der vel 2 måder at det kan blive lavet på
1) Der er en med fornuft der bestemmer det uden/inden andre blander sig og udsætter projektet i al evighed
2) En skandale rammer nyhederne og presser politikkerne til at lovgive på området.
Det lyder som den rigtige måde, men det er urealistisk at få gennemført alt doc i flade (grep-bare) ASCII-filer. På den anden side sagde man også i min barndom at folk ikke kunne holde op med at ryge.
Michael Deichmann:
i de officielle analer
Åh, vil du ikke nok være rar at bruge to n'er fremover? Tusind tak! :-)
[2] Overvej derefter visdommen i unicode DNS navne, elle.r blot HTML link beskrivelser og f.eks navnet 'google'
Det er nok mere et spørgsmål om lige vilkår for lande der ikke er latinsk sprogede.
Alternativet, forskellige tegnsæt (character map/code page), er jo nok end en endnu værre løsning.
Burde vi ikke som professionelle IT folk, insistere på at kun flade filer, i et præcist tilstrækkeligt tegnsæt, f.eks ISO8859-1, er godt og sikkert nok til offentlig brug ?
Flade filer strippet for enhver form for formatering, der ikke er en del af tegnsættet, er nok lige at stramme den. Derimod vil jeg personligt mene at ISO8859-1 er et rimeligt krav.
Formateringen fra eksisterende dokumentformater kunne evt. konverteres til et helt simpelt layout-sprog, der lå ved siden af den egentlige tekst, i stedet for sovset sammen med teksten. Simpelt i design, men ikke nødvendigvis i mængden af funktioner.
