Jesper sandal header

Fortæller du dine børn om ASCII?

Der var en gang et tegnsæt. Eller faktisk var der rigtigt mange forskellige tegnsæt, men verden var større dengang, så i Amerika, hvor computernes software kom fra, kendte man kun ét tegnsæt. Det hed ASCII.

Se, i Amerika må alting som bekendt gerne være lidt større, men ASCII blev født i en tid, hvor der skulle spares på hver eneste bit i computeren. ASCII's forældre mente da heller ikke, at det var nødvendigt for ASCII at spilde kostbare bit på fjollede europæiske sprog eller sirlig typografi.

Det gjorde heller ikke så meget. ASCII havde familie ude i den store verden, som på mange måder lignede ASCII, men boede i fjerne lande med mystiske bogstaver som Æ, Ø og Å.

Da ASCII blev større, kom ASCII ofte på besøg hos sine udenlandske fætre og kusiner, som havde stor morskab ud af at få ASCII til at prøve at vise deres eksotiske tegn. Men hvor meget ASCII end anstrengte sig, blev det aldrig bedre end 'AE' eller 'OE'.

Alligevel lever ASCII lykkeligt til sine dages ende.

Indrømmet, eventyret om ASCII er næppe egnet som godnatlæsning for de små, men der er en pædagogisk udfordring med at forklare, hvorfor der er visse tegn, man skal passe på med.

Nogle har efterhånden lært, at man ikke bare må døbe sine filer hvad som helst, men skal holde sig fra visse tegn. At folk så stadig navngiver deres filer med navne, der er mere ubrugelige, end dengang det hed otte plus tre tegn i DOS, er en anden snak.

Ok, lad os da lige tage det sidespring. Jeg husker projektskrivning på universitetet, hvor man ofte endte med en fil, som gik fra DOK1.DOC til INDLED.DOC til INDLED2.DOC til INDLEDNY.DOC til INDLRED.DOC til INDKLAR.DOC til SAMLET.DOC. Og det var, hvis vi havde bare nogenlunde disciplin, når vi byttede rundt med disketterne.

Hvis nogen nu siger LaTeX og versionsstyring, så har de tydeligvis aldrig skrevet projekt sammen med andre end deres usynlige venner.

Helt fabelagtigt blev det, når der altid lige var én i gruppen, som kom til at arbejde på en Mac og glemte at gemme i Windows-filformat, så man skulle spilde tid på at opstøve en ledig Mac og gemme en ny version i det rigtige format.

I det hele taget var it-babelstårnet ikke bygget af ASCII-tegn alene, men ASCII-problemet eksisterer stadig, mens det trods alt er blevet lettere at arbejde flere personer på det samme dokument.

Hele dette rodede eventyr om ASCII udsprang af, at jeg dagligt redigerer artikler på Version2, og ikke alle mine kolleger har slået autoformateringen fra i deres foretrukne tekstbehandlingsapplikation. Derfor støder jeg ofte ind i de to små fyre ' og ’.

Den sidste er en 'krøllet' apostrof, som Word vist kalder det, når man slår den fra i autoformateringen. Og hvorfor er den forskel interessant? Jo, den ene er tegn nummer 39 i ASCII, og den anden er tegn nummer 146 i Windows-1252.

Vores politik er, at vi bruger Nr. 39, fordi teksten i sidste ende skal gennemtygges af flere applikationer på webserveren, før den kommer ud i eksempelvis en overskrift. Valget af tegnsæt bliver ikke altid bevaret, derfor skal vi holde os til ASCII-tegnene for at være på den sikre side og undgå fejlkoder i vores overskrifter.

Det er et meget velkendt budskab for os, der har kæmpet med 24-nålsprinteren om at udskrive danske tegn. Men hvordan fortæller jeg mine kolleger, som ikke har kæmpet med at definere codepage i AUTOEXEC.BAT eller CONFIG.SYS, eller hvor det bæst nu end skulle placeres i fordums tid, hvorfor de ikke skal bruge nummer 146?

It er jo, bortset fra småting som wifi, Bluetooth og printere, jo i dag heldigvis bare noget, der virker.

En to-årig kan finde ud af at streame alle fem sæsoner af Breaking Bad på en tablet, selvom samme to-årige ikke er i stand til sætte nok ord sammen til spolere seriens handling for de andre børn i børnehaven.

Allright, jeg aner ikke, om to-årige går i børnehave eller vuggestue, eller om de har lært at tale, men jeg går ud fra, at de følger med i Breaking Bad.

Netop fordi it i dag ikke kræver ritualer i stil med at ofre drivere nok til at frigøre nok konventionel hukommelse til at køre King's Quest, så er resterne af gammel ASCII-dominans og tegnsætsforvirring svært at forholde sig til.

Der findes selvfølgelig standarder, retningslinjer og gode intentioner, men vi ved jo også, at programmører ligesom alle andre fornuftige mennesker springer over, hvor gærdet er lavest. Det er derfor, jeg stadig får e-mails uden danske tegn.

Til gengæld indeholder min telefon flere hundrede forskellige smileys. Og ved I hvad? De fleste af de smileys bliver bare til uforståelige symboler, når de bliver sendt. Så måske er det sådan, jeg skal forklare det: En krøllet apostrof er som at sende en grædende zombie-klovne-smiley fra en iPhone til en Windows-telefon.

Kommentarer (27)
Morten W. Jørgensen

Jeg kommer til at taenke paa dengang min far tog mig med paa arbejde i skolernes sommerferie. Satte mig foran en af firmaets maskiner med Kings Quest og gav mig en DA-EN og en EN-DA ordbog og lod mig gaa i krig.....

Jeg bliver helt nostalgisk og kan naermest lugte de varme laboratoriestromforsyninger og vanilin-isen igen.

Christian Schmidt

Vores politik er, at vi bruger Nr. 27, fordi teksten i sidste ende skal gennemtygges af flere applikationer på webserveren, før den kommer ud i eksempelvis en overskrift.

Er det ikke en falliterklæring for et nyhedsmedie, at I fravælger smuk typografi i overskrifter pga. tekniske begrænsninger? :-)

Jeg er med på, at man generelt kan undgå en del problemer ved at undlade at bruge danske bogstaver i filnavne, domænenavne osv., dvs. steder hvor det i moderne tider i princippet burde virke men bare ikke altid gør det og i hvert fald gør ting mere besværligt/ugennemskueligt. Men systemer til tekstbehandling og onlinepublicering har vel efterhånden haft Unicode-understøttelse i mange år, så mon ikke det trods alt skulle være en overskuelig opgave at bringe til at virke?

Martin Hundebøll

Hvis nogen nu siger LaTeX og versionsstyring, så har de tydeligvis aldrig skrevet projekt sammen med andre end deres usynlige venner.

Den kan jeg altså bare ikke lade passere ubemærket :) Jeg har da, som tusindvis af andre studerende på AAU, skrevet mindst 10 store projekter (80 - 100 sider) ved brug af LaTeX og subversion, sammen med 3-5 andre studerende.

Men ja, jeg får nok svært ved at overbevise min kæreste om at hun skal gøre det samme på sit studie :)

Richard Foersom

I artiklen: "Jo, den ene er tegn nummer 27 i ASCII, og den anden er tegn nummer 146 i Windows-1252."

Bemærk 27 er hexadecimalt (39 decimalt) men 146 er skrevet decimalt.

"Hvis nogen nu siger LaTeX og versionsstyring, så har de tydeligvis aldrig skrevet projekt sammen med andre end deres usynlige venner."

Ha-ha!

Erik Cederstrand

Hvordan kan du skrive et indlæg om at videregive historien om ASCII videre til næste generation uden at nævne, at de første ~30 tegn mest har med nåleprintere og retteblæk at gøre, og at vi STADIG ikke kan blive enige om, om det er nødvendigt at køre vognen retur, inden der indledes på en ny linje i en tekstfil?

Dennis Jørgensen

Børnene vil nok hellere se Breaking Bad, men jeg kunne nok godt blive nødt til at fortælle eventyr om Kong Latin den første, Prinsesse Unicode den ottende og den glade bonde der bruger bogstavet J som tegnsætning.

Fodpost til Hr. Jørgensen, Jørgensen, Jörgensen, J\370rgensen, J¥rgensen eller bare Jrgensen synes i hvert fald ikke at aftage. Det er også helt almindeligt for hjemmesider at erklære mit navn for direkte ugyldigt, og emails hvor et eller andet har erstattet ':)' med 'J' i fonten Wingdings vil absolut ingen ende tage.

Anonym
  • Bacon kode (16. århundrede) mekanisk 5 bit
  • Baudot kode (1870) 5 bit elektrisk telegraf alfabet
  • Murray kode (1901) 7 og 8 bit skrivemaskine og papirstrimmel hulle kode
  • ITA2 kode (1930) 5 bit teletype (telex) kode
  • BCDIC kode (1961) 6 bit kode og forgænger for E(xtended)BCDIC
  • EBCDIC kode (1963) 8 bit fuldt tegnsæt til alle nationale sprog udviklet af IBM
  • ASCII kode (1963) 7 (og senere 8) bit tegnsæt
  • ISO 10646 (1991) fuld kodeskema for alle tegnsæt, også kendt som Unicode (selv om de to ikke er ens)
  • UTF-8, UTF-16 (1992) variabel bit længde kodning med fuldt nationalt tegnsæt
  • ISO 8859-1
  • ISO/IEC 2022 (1994) multi tegns standard - så kom østens tegnsæt med)
  • ECMA-35, ECMA-43 og ECMA-6

... og listen er meget længere

Og JA, selvfølgelig fortæller jeg mine børn om tegnkodningsskemaer. Det manglede da bare.

Lars F. Jensen

Natruligvis BCL tegsættet - 6 bit, 64 tegn - og med den rigtige tromle i linieskriveren også fine danske bogstaver.

Men det var et farligt råberi, når der slet ingen små bogstaver var.

Lars :)

PS! Havde en chef, der mente man spare 25% i hukommelse og diskplads ved at bruge BCL i stedet for et 8 bit tegnsæt. Han havde dog ikke gidet undersøge og opdage, at langt hovedparten af data i systemerne var (binære) tal og slet ikke ikke bogstaver.

Nikolaj Brinch Jørgensen

Jeg har glemt hvor mange gange jeg har forsøgt at rette hjemadressen min Apple ID profil, i håb om at den ikke ville "scramble" alle danske tegn.

With the release of OS X, Mac OS Roman and all other "scripts" (as the Mac OS called them) were replaced by UTF-8 as the standard character encoding for the Macintosh operating system. However, default character encoding in Java for OS X is still MacRoman (see Mac Dev Center), and the keyboard layout with its combination of control, option, and dead keys still map to the original characters in MacRoman.

Torben Jensen

Som illustreret i eksemplerne med Jørgensen er ALT andet end plain ascii stadig et meget reelt og praktisk problem. Ungerne oplever det nok ikke hverken i Word når de skriver stil, eller på deres fine iPad når de spiller spil.

Men jeg garanterer for at mange kommer til at møde det i det praktiske i erhvervslivet, specielt dem som skal arbejde med industrielle produkter.

Selv kæmper jeg (ret meget) med at få programmører til ikke at skyde genvej og tænke "ah, bare man kan skrive A-Z og 0-9 er det fint". Hvorefter alt programmeres jfr Win1251 Western Europe Win-Ascii, eller noget.

Kunder tænker præcist ligesådan når de leverer databaser i tekstform.

Mit bud er at problematikken vil være aktuel MANGE år endnu.

Se bare et link jeg lige fandt til morgen:
http://www.jobsogningsguide.dk/jobmesser (nederst "Mød en medarbejder"). Virker ikke fordi ø er blevet til noget andet.

Kasper Hovgaard

Det første tegn er almindeligt forekommende i rigsfællesskabet, og resten af tegnene er uomgængelige - latinske - bogstaver, som mestendels også indgår i navne:

ð ç ß č IJ š ž œ ř

Det er rent ud sagt noget rigtigt møg ikke at kunne benytte dem pga. angloamerikansk... arrogance (for det er det jo).

Faktisk har jeg forelsket mig lidt i flere af tegnene, f.eks. det tegn-besparende "š", som erstatter "sch". :)

Frithiof Andreas Jensen

Hvis nogen nu siger LaTeX og versionsstyring, så har de tydeligvis aldrig skrevet projekt sammen med andre end deres usynlige venner.

Nånånå.

"Technical Design Report" for ESS er produceret som ganske mange mindre Word-filer på dropbox (typisk 1-12 per afsnit), som derefter er strippet ned til ASCII text og konverteret til LaTex via et Python script som anvender .NET.

Figurer og tabeller til hvert afsnit blev placeret i subdirectories med figur eller tabel text i en text-fil under hvert kapitel "for sig selv" og importeret med et andet script, hvorefter hele molevitten blev compileret til LaTex og leveret til trykkeren.

Jeg selv brugte både "Scrivener" og Word til mine ting.

Link til resultatet:

http://europeanspallationsource.se/eoi

Problemet med Word er at at det så småt holder op med at fungere når man kommer op på meget mere end godt 50 sider med figurer e.t.c, man skriver med folk som har 3-6 versioner af det og Word på Mac er naturligvis ikke helt präcist kompatibelt med Word på Windows.

Figurer, som man selv sätter ind i dokumentet, bliver smudsige og ser dårlige ud når de bliver trykt, tabeller er sväre at lägge ud på en ensartet måde, tekstopsätningen bliver heller ikke särligt kön når det bliver trykt "rigtigt".

Jeg har også väret med til at sende et par rapporter i trykken direkte fra word. Trykkeren strippede igen teksten ind i "det som han nu bruger" og de skulle også have alle figurer og billeder sendt separat i vektorformat eller EPS for at kunne skalere dem.

Strip, Filter & Rebuild. Så slipper man for "gnyffer" i teksten! ASCII Rulez!!

Thomas Søndergaard

Den her er vist passende :-)

ODE TO A SHIPPING LABEL

Once there was a little o,
with an accent on top like só.

It started out as UTF8,
(universal since ’98),
but the program only knew latin1,
and changed little ó to “ij” for fun.

A second program saw the “ij”
and said “I know HTML entity!”
So “ij” was smartened to “ó”
and passed on through happily.

Another program saw the tangle
(more precisely, ampersands to mangle)
and thus the humble “˜³”
became “ó”

Kilde: http://www.jarnot.com/archives/2013/05/ode-to-a-shipping-label.php

Torben Mogensen Blogger

I "gamle dage" var det i Danmark almindeligt, at terminaler udskiftede ASCII-tegnene {,| og } med æ, ø og å (og ditto [, \ og ] med Æ, Ø og Å), så man kunne skrive dansk tekst. En yderligere fordel var, at de nævnte tegn ligger lige efter z og Z i ASCII, så sortering var nogenlunde ligetil.

Ulempen var så, at man ikke kunne bruge de erstattede tegn, så i Pascal, for eksempel, brugte vi (. og .) i stedet for [ og ] og (* og *) i stedet for { og }.

Log ind eller Opret konto for at kommentere