Unicode

Fra Wikipedia, den frie encyklopædi

Unicode er et tegnsæt, der har vundet stor udbredelse i computerverdenen.

Unicode har som formål erstatte den store mængde af forskellige internationalt standardiserede eller proprietære tegnsæt på forskellige platforme med en proprietær standard ejet af det amerikanske konsortium Unicode Inc., der indeholder alle skrifttegn, der bruges til at skrive alle levende og de største af de uddøde sprog. Der findes et internationalt standardiseret tegnsæt, som i store træk er kompatibelt med Unicode, nemlig ISO/IEC 10646 – Universal Coded Character Set.

Grundlæggende set beskæftiger computere sig udelukkende med tal. De arkiverer bogstaver og andre skrifttegn ved at tildele et tal til hvert enkelt tegn. Før Unicode blev opfundet, var der hundredvis af forskellige indkodningssystemer beregnet til at tildele disse tegn tal. Der fandtes ikke nogen indkodning, der kunne rumme nok skrifttegn.

Unicode tilordner således et tal mellem 0 og 10FFFF(hexadecimalt) til de forskellige skrifttegn. For at kunne bruge denne definition kræves en indkoding, unicode specificerer to forskellige mapninger:

  • UTF (Unicode Transfer Format)
  • UCS (Universal Character Set)

Hver mapning findes i forskellige indkodninger, bl.a.:

  • UTF-7 — en ikke særligt brugt 7-bit variabel længde indkodning.
  • UTF-8 — en 8-bit variabel længde indkodning som maksimerer kompatibiliteten med ASCII.
  • UTF-EBCDIC — en 8-bit variabel længde indkodning som maksimerer kompatibiliteten med EBCDIC.
  • UCS-2 — en 16-bit fastlængde indkoding som kun understøtter en del af unicode.
  • UTF-16 — en 16-bit variabel længde indkodning
  • UCS-4 og UTF-32 — to funktionelt identiske 32-bit fastlængde indkoding

Windows bruger hovedsageligt UTF-16, mens Unix og Linux hovedsageligt bruger UTF-8, men også UTF-32 internt.

I flere Windows programmer, bl.a. Word kan man skrive unicode tegnene, ved at taste koden og derefter Alt + x.

Se også

Eksterne henvisninger

Wikimedia Commons har medier relateret til: