UTF-8

UTF-8 (Abkürzung für 8-Bit UCS Transformation Format, wobei UCS wiederum Universal Coded Character Set abkürzt) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen (Unicode und UCS sind praktisch identisch). Die Kodierung wurde im September 1992 von Ken Thompson und Rob Pike bei Arbeiten am Plan-9-Betriebssystem festgelegt. Sie wurde zunächst im Rahmen von X/Open als FSS-UTF bezeichnet (filesystem safe UTF in Abgrenzung zu UTF-1, das diese Eigenschaft nicht hat), in den Folgejahren erfolgte im Rahmen der Standardisierung die Umbenennung auf die heute übliche Bezeichnung UTF-8.^[1]

UTF-8 ist in den ersten 128 Zeichen (Indizes 0–127) deckungsgleich mit ASCII und eignet sich mit in der Regel nur einem Byte Speicherbedarf für Zeichen vieler westlicher Sprachen, besonders für die Kodierung englischsprachiger Texte, die sich im Regelfall ohne Modifikation daher sogar mit nicht-UTF-8-fähigen Texteditoren ohne Beeinträchtigung bearbeiten lassen, was einen der Gründe für den Status als De-facto-Standard-Zeichenkodierung des Internet und damit verbundener Dokumenttypen darstellt. Im April 2023 verwendeten 97,9 % aller Websites UTF-8^[2] und 98,8 % der Top 1000.^[3]

In anderen Sprachen ist der Speicherbedarf in Bytes pro Zeichen größer, wenn diese vom ASCII-Zeichensatz abweichen. Die deutschen Umlaute und das ß (scharfe S) erfordern zwei Bytes, machen aber nur einen kleinen Teil deutscher Texte aus. Ähnlich ist es bei anderen Sprachen wie beispielsweise Französisch, welche überwiegend die lateinischen Buchstaben aus dem ASCII-Raum verwenden. Griechische oder kyrillische Buchstaben belegen hingegen ebenfalls 2 Bytes, allerdings bestehen daraus praktisch die kompletten Texte abgesehen von Leerzeichen, Satzzeichen und Ziffern. Zeichen fernöstlicher Sprachen und von Sprachen aus dem afrikanischen Raum belegen sogar bis zu 4 Bytes je Zeichen.

Da die Verarbeitung von UTF-8 als Multibyte-Zeichenfolge wegen der notwendigen Analyse jedes Bytes im Vergleich zu Zeichenkodierungen mit fester Byteanzahl je Zeichen mehr Rechenaufwand und für bestimmte Sprachen auch mehr Speicherplatz erfordert, werden abhängig vom Einsatzszenario auch andere UTF-Kodierungen zur Abbildung von Unicode-Zeichensätzen verwendet. So führte Microsoft 1993 mit Windows NT 3.1 die Verwendung von UCS-2 ein, einer Zeichenkodierung, bei der jedes Zeichen fest zwei Bytes belegt. Da durch die spätere Weiterentwicklung von Unicode jedoch mit dieser Kodierung nicht mehr alle Zeichen darstellbar waren, erfolgte mit Windows 2000 ein neuerlicher Umstieg auf den kompatiblen Nachfolger UTF-16 Little Endian, womit man allerdings zugleich die Vorteile einer Kodierung mit fester Byteanzahl wieder verlor.^[4]

↑ RFC 3629 – UTF-8, a transformation format of ISO 10646. 2003, Abschnitt 1: Introduction. (englisch).
↑ Historical trends in the usage of character encodings for websites. In: W3Techs. Q-Success, abgerufen am 5. März 2019 (englisch).
↑ Usage of character encodings broken down by ranking. In: W3Techs. Q-Success, abgerufen am 7. März 2019 (englisch).
↑ UTF-8 Everywhere Manifesto. Abgerufen am 22. Dezember 2021 (englisch).

[1] RFC 3629 – UTF-8, a transformation format of ISO 10646. 2003, Abschnitt 1: Introduction. (englisch).

[2] Historical trends in the usage of character encodings for websites. In: W3Techs. Q-Success, abgerufen am 5. März 2019 (englisch).

[3] Usage of character encodings broken down by ranking. In: W3Techs. Q-Success, abgerufen am 7. März 2019 (englisch).

[4] UTF-8 Everywhere Manifesto. Abgerufen am 22. Dezember 2021 (englisch).

[1]

[2]

[3]

[4]

UTF-8

From Wikipedia, the free encyclopedia · View on Wikipedia