Tegnsæt

Fra Wikipedia, den frie encyklopædi
Gå til: navigation, søg

Et tegnsæt betegner den teknik, der bruges i digital teknologi, for at varetage skrifttegn fra forskellige sammenhænge - mest typisk sprogsammenhænge.

Introduktion[redigér | redigér wikikode]

I den digitale teknik er menneskets skrifttegn data. Præsentationen, ved print eller i et skærmbillede, forudsætter en digital font. I fonten er hvert tegn nummereret, så det er ligetil…men det viser sig at der reelt er forbavsende mange tegn at tage hensyn til. Her har tegnsættet været den gængse teknik taget i brug for at skelne mellem det der på engelsk kaldes character set - d.v.s. et relativt stort antal forskellige tegn, eksempelvis 256, grupperet sammen. I parentes bemærket er den engelske term for tegnsæt-metoden engelsk: character encoding. En digital font er konstrueret til at varetage et specifikt character set, eller eventult flere specifikke character sets. De tekniske retningslinjer for at bruge en digital font omfatter derfor en formalisme - character encoding eller tegnsæt - der entydigt viser hvilke tegn-numre den pågældende font omfatter, og iøvrigt også entydigt viser hvilke skrifttegn brugeren kan forvente under det pågælden nummer (Adobe 1985, p. 91).

Formater[redigér | redigér wikikode]

Bogstaverne er måske de mest benyttede tegn, de kaldes alfabetiske tegn. Hertil kommer tallene, som kaldes numeriske tegn. Kombinationen af bogstaver og tal kaldes for alfanumeriske tegn.

Det blev til de første digitale tegnsæt, der bestod af mindst 6 bit, hvilket giver 64 tegnmuligheder – til bogstaver, tal og andre tegn. Senere øgede man til 7 bit eller 128 varianter, så både store og små bogstaver blev muligt. Endelig skulle der også være plads til specielle bogstaver og symboler for enkelte lande, da elektronisk post blev hverdag, og så øgede man til 8 bit eller 256 tegn.

Det er ikke nok, hvis alle verdens sprog skal integreres i et og samme internationale tegnsæt (d.v.s. character encoding). I Unicode findes tegn-data formater på op til hele 32 bit, mens det vidt udbredte Unicode transformation format-8 (UTF-8) har et varierende antal bits (8,16,24,32) (Unicode 2014). Unicode er en fortøbende og meget lang talrække der på denne måde inkluderer under et bl.a. kinesisk, japansk, latinske og kyrilliske alfabeter, koptisk, gotisk, kileskrift, ogam og runealfabet samt endda tegn for nogle kunstsprog såsom fantasisproget Klingon.

Eksempler på tegnsæt:

Se også[redigér | redigér wikikode]

Mere om pc'ens håndtering af digital data.

Eksterne links[redigér | redigér wikikode]

Kilder[redigér | redigér wikikode]


Programmering Stub
Denne artikel om datalogi eller et datalogi-relateret emne er kun påbegyndt. Hvis du ved mere om emnet, kan du hjælpe Wikipedia ved at udvide den.