Unbenanntes Dokument

UTF-8

UTF steht für UCS Transformation Format, wodurch betont wird, daß es sich lediglich um eine andere Codierung von UCS bzw Unicode handelt. Neben UTF-8 exisitieren unter anderem noch die Formate UTF-7, UTF-16 sowie UTF-32, die aber nur geringe Bedeutung erlangt haben, weshalb wir uns hier auf die Darstellung von UTF-8 beschränken.

UTF-8 ist eine Mehrbyte-Codierung, bzw. ein Code von variabler Bit-Breite.

ASCII-Zeichen werden mit 1 Byte codiert, in dem das erste Bit immer Null ist:

0xxx xxxx

Jedes Byte, das mit einer 1 beginnt, gehört zu einem aus mehreren Bytes bestehenden UTF-8 Code:

110x xxxx 10xx xxxx = 2 Byte Code

Besteht ein UTF-8 Code aus n ≥ 2 Bytes beginnt das erste Byte (Startbyte) mit n Einsen, gefolgt von einer Null und jedes n-1 folgende Byte mit der Bitfolge 10 (siehe Beispiel oben). Ein 3-Byte Code sieht also folgendermaßen aus:

1110 xxxx 10xx xxxx 10xx xxxx
Mit den 16 noch verfügbaren Bits können alle 16-Bit UCS-2 Codes dargestellt werden.

UTF-8 codierte Dateien sind also voll abwärtskompatibel zur 7-Bit ASCII Vergangenheit und vergrößern den Umfang von Dateien aus dem amerikanischen und europäischen Bereich gar nicht oder nur unwesentlich.
Diese Eigenschaften haben dazu geführt, daß diese Codierungsmethode der de facto Standard bei der Verwendung von Unicode geworden ist. Bei den Webseiten des Internets wird UTF-8 immer häufiger verwendet - alternativ dazu, können, wie bereits geschildert, in HTML-Dateien Sonderzeichen durch sog. Entities umschrieben werden.