Tegnsæt: Forskelle mellem versioner

← Gå til forrige forskel Gå til næste forskel →

Content deleted Content added

Inline

Versionen fra 6. sep. 2017, 21:44

Et tegnsæt betegner den teknik, der bruges i digital teknologi, for at varetage skrifttegn fra forskellige sammenhænge - mest typisk sprogsammenhænge.

Introduktion

I den digitale teknik er menneskets skrifttegn data. Præsentationen, ved print eller i et skærmbillede, forudsætter en digital font. I fonten er hvert tegn nummereret, så det er ligetil…men det viser sig at der reelt er forbavsende mange tegn at tage hensyn til. Her har tegnsættet været den gængse teknik taget i brug for at skelne mellem det der på engelsk kaldes character set - dvs. et relativt stort antal forskellige tegn, eksempelvis 256, grupperet sammen. I parentes bemærket er den engelske term for tegnsæt-metoden engelsk: character encoding. En digital font er konstrueret til at varetage et specifikt character set, eller eventult flere specifikke character sets. De tekniske retningslinjer for at bruge en digital font omfatter derfor en formalisme - character encoding eller tegnsæt - der entydigt viser hvilke tegn-numre den pågældende font omfatter, og i øvrigt også entydigt viser hvilke skrifttegn brugeren kan forvente under det pågældende nummer (Adobe 1985, s. 91).

Formater

Bogstaverne er måske de mest benyttede tegn, de kaldes alfabetiske tegn. Hertil kommer tallene, som kaldes numeriske tegn. Kombinationen af bogstaver og tal kaldes for alfanumeriske tegn.

Det blev til de første digitale tegnsæt, der bestod af mindst 6 bit, hvilket giver 64 tegnmuligheder – til bogstaver, tal og andre tegn. Senere øgede man til 7 bit eller 128 varianter, så både store og små bogstaver blev muligt. Endelig skulle der også være plads til specielle bogstaver og symboler for enkelte lande, da elektronisk post blev hverdag, og så øgede man til 8 bit eller 256 tegn.

Det er ikke nok, hvis alle verdens sprog skal integreres i et og samme internationale tegnsæt (dvs. character encoding). I Unicode findes tegn-data formater på op til hele 32 bit, mens det vidt udbredte Unicode transformation format-8 (UTF-8) har et varierende antal bits (8,16,24,32) (Unicode 2014). Unicode er en fortøbende og meget lang talrække der på denne måde inkluderer under et bl.a. kinesisk, japansk, latinske og kyrilliske alfabeter, koptisk, gotisk, kileskrift, ogam og runealfabet samt endda tegn for nogle kunstsprog såsom fantasisproget Klingon.

Eksempler på tegnsæt:

6-bit Fieldata fra Univac
7-bit og 8-bit American Standard Code for Information Interchange, (ASCII)
8-bit EBCDIC IBM's oprindelige tegnsæt
Unicode i flere formater, herunder UTF-8 der er almindelig i et GNU/Linux system (bitantal:8,16,24,32), og UTF-16 (bitantal:16,32) der også er kendt af Microsoft Windows.

Se også

Wikimedia Commons har flere filer relateret til Tegnsæt

Mere om pc'ens håndtering af digital data.

Eksterne links

Kilder

Adobe Systems Incorporated (1985), "9.2 CHARACTER ENCODING", Postscript language tutorial and cookbook (PDF), Addison-Wesley
"UTF-8, UTF-16, UTF-32 & BOM", Unicode FAQ, Unicode inc., 2014 {{citation}}: Ukendt parameter |chapterurl= ignoreret (|chapter-url= foreslået) (hjælp)

Spire

Denne artikel om datalogi eller et datalogi-relateret emne er en spire som bør udbygges. Du er velkommen til at hjælpe Wikipedia ved at udvide den.

@@ Linje 17: / Linje 17: @@
 * [[Unicode]] i flere formater, herunder [[UTF-8]] der er almindelig i et [[GNU/Linux]] system (bitantal:8,16,24,32), og [[UTF-16]] (bitantal:16,32) der også er kendt af [[Microsoft Windows]].
-♠== Se også ==
+== Se også ==
 {{Commonscat|Codes}}
 Mere om [[pc]]'ens håndtering af [[digital]] data.