Tegnsæt: Forskelle mellem versioner

← Gå til forrige forskel Gå til næste forskel →

Content deleted Content added

Inline

Versionen fra 25. jul. 2015, 10:39

Et tegnsæt betegner den teknik, der bruges i digital teknologi, for at varetage skrifttegn fra forskellige sammenhænge - mest typisk sprogsammenhænge.

Introduktion

I den digitale teknik er menneskets skrifttegn data. Præsentationen, ved print eller i et skærmbillede, forudsætter en digital font. I fonten er hvert tegn nummereret, så det er ligetil…men det viser sig at der reelt er forbavsende mange tegn at tage hensyn til. Her har tegnsættet været den gængse teknik taget i brug for at skelne mellem det der på engelsk kaldes character set - d.v.s. et relativt stort antal forskellige tegn, eksempelvis 256, grupperet sammen. I parentes bemærket er den engelske term for tegnsæt-metoden engelsk: character encoding. En digital font er konstrueret til at varetage et specifikt character set, eller eventult flere specifikke character sets. De tekniske retningslinjer for at bruge en digital font omfatter derfor en formalisme - character encoding eller tegnsæt - der entydigt viser hvilke tegn-numre den pågældende font omfatter, og iøvrigt også entydigt viser hvilke skrifttegn brugeren kan forvente under det pågælden nummer (Adobe 1985, s. 91).

Formater

Bogstaverne er måske de mest benyttede tegn, de kaldes alfabetiske tegn. Hertil kommer tallene, som kaldes numeriske tegn. Kombinationen af bogstaver og tal kaldes for alfanumeriske tegn.

Det blev til de første digitale tegnsæt, der bestod af mindst 6 bit, hvilket giver 64 tegnmuligheder – til bogstaver, tal og andre tegn. Senere øgede man til 7 bit eller 128 varianter, så både store og små bogstaver blev muligt. Endelig skulle der også være plads til specielle bogstaver og symboler for enkelte lande, da elektronisk post blev hverdag, og så øgede man til 8 bit eller 256 tegn.

Det er ikke nok, hvis alle verdens sprog skal integreres i et og samme internationale tegnsæt (d.v.s. character encoding). I Unicode findes tegn-data formater på op til hele 32 bit, mens det vidt udbredte Unicode transformation format-8 (UTF-8) har et varierende antal bits (8,16,24,32) (Unicode 2014). Unicode er en fortøbende og meget lang talrække der på denne måde inkluderer under et bl.a. kinesisk, japansk, latinske og kyrilliske alfabeter, koptisk, gotisk, kileskrift, ogam og runealfabet samt endda tegn for nogle kunstsprog såsom fantasisproget Klingon.

Eksempler på tegnsæt:

6-bit Fieldata fra Univac
7-bit og 8-bit American Standard Code for Information Interchange, (ASCII)
8-bit EBCDIC IBM's oprindelige tegnsæt
Unicode i flere formater, herunder UTF-8 der er almindelig i et GNU/Linux system (bitantal:8,16,24,32), og UTF-16 (bitantal:16,32) der også er kendt af Microsoft Windows.

Se også

Wikimedia Commons har flere filer relateret til Tegnsæt

Mere om pc'ens håndtering af digital data.

Eksterne links

Kilder

Adobe Systems Incorporated (1985), "9.2 CHARACTER ENCODING", Postscript language tutorial and cookbook (PDF), Addison-Wesley {{citation}}: Ukendt parameter |Ref= ignoreret (|ref= foreslået) (hjælp)
Unicode FAQ, Unicode inc., 2014 {{citation}}: |chapter= ignoreret (hjælp); Manglende eller tom |title= (hjælp); Ukendt parameter |Ref= ignoreret (|ref= foreslået) (hjælp); Ukendt parameter |chapterurl= ignoreret (|chapter-url= foreslået) (hjælp)

Spire

Denne artikel om datalogi eller et datalogi-relateret emne er en spire som bør udbygges. Du er velkommen til at hjælpe Wikipedia ved at udvide den.

@@ Linje 1: / Linje 1: @@
+Et '''tegnsæt''' betegner den teknik, der bruges i digital teknologi, for at varetage skrifttegn fra forskellige sammenhænge - mest typisk sprogsammenhænge.
-Et '''tegnsæt''' er kodning af [[tegn (skrift)|tegn]]. Resultatet kan f.eks. vises i en [[tabel]] med tegnet eller [[symbol]]et i den første kolonne og kode- eller talværdien i den næste.
+== Introduktion ==
-Man tilknytter med andre ord et tal – til et tegn eller symbol, så det gøres muligt at lagre informationen [[digital]]t f.eks. på en [[pc]].
+I den digitale teknik er menneskets skrifttegn data. Præsentationen, ved print eller i et skærmbillede, forudsætter en digital font. I fonten er hvert tegn nummereret, så det er ligetil&hellip;men det viser sig at der reelt er forbavsende mange tegn at tage hensyn til. Her har ''tegnsættet'' været den gængse teknik taget i brug for at skelne mellem det der ''på engelsk'' kaldes ''character set'' - d.v.s. et relativt stort antal forskellige tegn, eksempelvis 256, grupperet sammen. I parentes bemærket er den engelske term for tegnsæt-metoden {{lang-en|character encoding}}. En digital font er konstrueret til at varetage et specifikt ''character set'', eller eventult flere specifikke ''character sets''. De tekniske retningslinjer for at bruge en digital font omfatter derfor en formalisme - ''character encoding'' eller ''tegnsæt'' - der entydigt viser hvilke tegn-numre den pågældende font omfatter, og iøvrigt også entydigt viser hvilke skrifttegn brugeren kan forvente under det pågælden nummer {{harv|Adobe|1985|p=91}}.
+== Formater ==
-[[Bogstav]]erne er måske de mest benyttede tegn. Det kaldes for de '''alfabetiske tegn'''. Hertil kommer [[tal]]lene, som kaldes de '''numeriske tegn'''. Kombinationen af bogstaver og tal kaldes også for '''alfanumeriske tegn'''.
+[[Bogstav]]erne er måske de mest benyttede tegn, de kaldes alfabetiske tegn. Hertil kommer [[tal]]lene, som kaldes numeriske tegn. Kombinationen af bogstaver og tal kaldes for ''alfanumeriske tegn''.
-Endelig følger "resten" eller alt andet, herunder '''specialtegn'''. Sammen med de to forrige grupper kaldes de for '''alfameriske tegn'''.
-Tegnsæt har været kendt længe før den moderne [[informationsteknologi]]:
-* De [[oprindelige amerikanere]] udvekslede oplysninger via røgsignaler.
-* [[Morse-kode]]n anvendtes bl.a. til at sende radiotelegrammer og er et tegnsæt repræsenteret ved korte og lange tryk på en [[telegrafnøgle]].
-* [[Telex]]-kommunikation handler om forbundne elektriske [[skrivemaskine]]r, hvor et tastetryk på afsenderen medførte en udskrift af det samme symbol på modtageren papir.
 Det blev til de første digitale tegnsæt, der bestod af mindst 6 [[bit]], hvilket giver 64 tegnmuligheder – til bogstaver, tal og andre tegn. Senere øgede man til 7 bit eller 128 varianter, så både store og små bogstaver blev muligt. Endelig skulle der også være plads til specielle bogstaver og symboler for enkelte lande, da elektronisk post blev hverdag, og så øgede man til 8 bit eller 256 tegn.
-Det er ikke nok, hvis alle verdens sprog skal integreres i et og samme internationale tegnsæt, så derved så [[Unicode]] dagens lys med op til hele 32 bit, så bl.a. kinesiske, japanske, [[koptisk]]e, [[gotisk (skrift)|gotiske]], [[kileskrift]], [[ogam]] og [[runealfabet]] symboler også fandt en plads, endda tegn for nogle ikke-eksisterende sprog såsom fantasisproget Klingon fandt også sin plads.<ref>[[:en:List of ISO 15924 codes by letter code]]</ref>
+Det er ikke nok, hvis alle verdens sprog skal integreres i et og samme internationale tegnsæt (d.v.s. ''character encoding''). I [[Unicode]] findes tegn-data formater på op til hele 32 bit, mens det vidt udbredte ''Unicode transformation format-8'' ([[UTF-8]]) har et varierende antal bits (8,16,24,32) {{harv|Unicode|2014}}. Unicode er en fortøbende og meget lang talrække der på denne måde inkluderer under et bl.a. [[kinesisk]], [[japansk]], [[latin]]ske og [[kyrillisk]]e alfabeter, [[koptisk]], [[gotisk (skrift)|gotisk]], [[kileskrift]], [[ogam]] og [[runealfabet]] samt endda tegn for nogle kunstsprog såsom fantasisproget Klingon.
 Eksempler på tegnsæt:
 * 6-bit [[Fieldata]] fra [[Univac]]
+* 7-bit og 8-bit ''American Standard Code for Information Interchange'', ([[ASCII]])
-* 7-bit [[ASCII]] i flere varianter, herunder US-ASCII
 * 8-bit [[EBCDIC]] [[IBM]]'s oprindelige tegnsæt
-* 31-bit [[Unicode]] i flere indkodninger, herunder [[UTF-8]] inden for [[Linux]], [[UTF-16]] inden for [[Microsoft Windows|Windows]]
+* [[Unicode]] i flere formater, herunder [[UTF-8]] der er almindelig i et [[GNU/Linux]] system (bitantal:8,16,24,32), og [[UTF-16]] (bitantal:16,32) der også er kendt af [[Microsoft Windows]].
-== Kilder/referencer ==
+== Se også ==
-{{reflist}}
 {{Commonscat|Codes}}
+Mere om [[pc]]'ens håndtering af [[digital]] data.
+== Eksterne links ==
+* [http://unicode.org/faq/ Unicode FAQ]
+* [[:en:List of ISO 15924 codes by letter code]]
+== Kilder ==
+* {{Citation
+|title = Postscript language tutorial and cookbook
+|chapter = 9.2 CHARACTER ENCODING
+|url = http://www-cdf.fnal.gov/offline/PostScript/BLUEBOOK.PDF
+|date = 1985
+|author = Adobe Systems Incorporated
+|publisher = Addison-Wesley
+|Ref = CITEREFAdobe1985
+}}
+* {{Citation
+|work = Unicode FAQ
+|chapter = UTF-8, UTF-16, UTF-32 & BOM
+|chapterurl = http://unicode.org/faq/utf_bom.html
+|date = 2014
+|publisher = Unicode inc.
+|Ref = Unicode 2014
+}}
 {{Datalogistub}}
 [[Kategori:Tegnsæt| ]]
+[[Kategori:Informationsteknologi]]