Tegnsætstandard
(eller alfabetstandard).
Beskrivelse af den kodeværdi (bitstreng), der tillægges et tegn i et givet tegnsæt. De fleste større standardiseringsorganisationer har udgivet tegnsætstandarder, der definerer bitværdier for bogstaver, tal, diakritiske tegn, interpunktionstegn, specialtegn samt kontroltegn til kommunikation og udskrifter. Der findes også semigrafiske tegnsæt (tegnsæt med forskellige simple kasse-, linie- og rastertegn, der anvendes i f.eks. teledata) og tegnsæt for billedbehandling.
Alene ISO har udgivet omkring 50 de jure-standarder for tegnsæt, ligesom ANSI og CCITT har udgivet deres egne tegnsætstandarder, hvoraf nogle dog kun afviger marginalt. Dertil kommer et utal af de facto-standarder, hvoraf nogle, f.eks. EBCDIC, har en betydelig udbredelse.
Tegnsætstandarder kan ordnes i familier. Eksempler herpå er standarder i forbindelse med: videotex, teletex, tastaturer, maskinel læsbar tekst, datakommunikation, dataopbevaring og grafiske tegn. Den hyppigst anvendte klassifikation er dog efter kodeværdiens længde, f.eks. 5-, 7-, 8-bit eller multi-byte.
Med 5 bit kan der direkte angives en kodetabel på 2^5 = 32 forskellige tegn. Bedst kendte 5-bit tegnsæt er telegrafalfabet nr. 2 (IA2, også kaldet Baudotkoden). Denne standard - der anvendes ved telex på det europæiske net - er ved brug af skiftekoder (hvilket muliggør valg af alternative kodetabeller) udvidet til et tegnrepertoire på 60 tegn.
Bedst kendte 7-bit standard er ISO 646. I denne kan der angives en kodetabel på 2^7 = 128 tegn, hvoraf en mindre del er variabel til brug for nationale tegn. Den invariante del (dvs. den del, der ikke må ændres af nationale hensyn) består af bogstaver, tal og aritmetiske symboler, der indgår med uændret kodeværdi i de fleste andre 7- og 8-bit tegnsæt. Af andre 7-bit tegnsætstandarder har især det oprindelige ASCII-tegnsæt vundet stor udbredelse.
I større computere - og i næsten alt PC-udstyr - anvendes 8-bit tegnsæt, hvilket giver en kodetabel på 2^8 = 256 tegn, se code page.
Ved hjælp af skiftekoder eller brug af to koblede tegn (f.eks. ' efterfulgt af e til at repræsentere é) kan tegnrepertoiret udvides ud over de 256. Dette er f.eks. sket i CCITT-anbefalingen S.61 (teletex) og ISO 6937, hvor antallet af tegn er ca. 330. Af kendte 8-bit standarder kan ud over ISO 6937 nævnes ISO 8859/1 og de-facto standarden EBCDIC.
Multi-byte standarder, dvs. tegnsæt, der er baseret på mere end 8 bit pr. tegn, og som derfor kan beskrive ideografiske tegn (f.eks. kinesisk skriftsprog), findes i standarden ISO 10646.
