UTF-8

UTF-8 (Abkürzung für 8-Bit UCS Transformation Format, wobei UCS wiederum Universal Coded Character Set abkürzt) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen (Unicode und UCS sind praktisch identisch). Die Kodierung wurde im September 1992 von Ken Thompson und Rob Pike bei Arbeiten am Plan-9-Betriebssystem festgelegt. Sie wurde zunächst im Rahmen von X/Open als FSS-UTF bezeichnet (filesystem safe UTF in Abgrenzung zu UTF-1, das diese Eigenschaft nicht hat), in den Folgejahren erfolgte im Rahmen der Standardisierung die Umbenennung auf die heute übliche Bezeichnung UTF-8.^[1]

Verbreitung

UTF-8 hat sich als De-facto-Standard-Zeichenkodierung des Internets und damit verbundener Dokumenttypen etabliert. Im April 2023 verwendeten 97,9 % aller Websites UTF-8^[2] und 98,8 % der Top 1000.^[3]

Auch bei der in Webbrowsern angewendeten Auszeichnungssprache HTML hat sich UTF-8 zur Darstellung sprachspezifischer Zeichen durchgesetzt (über 97 % Anteil im Oktober 2021) und ersetzt dabei die vorher genutzten HTML-Entitäten.^[4]

Die Internet Engineering Task Force verlangt von allen neuen Internet-Kommunikationsprotokollen, dass die Zeichenkodierung deklariert wird und dass UTF-8 eine der unterstützten Kodierungen ist. Das Internet Mail Consortium (IMC) empfiehlt, dass alle E-Mail-Programme UTF-8 darstellen und senden können.^[5]

Normung

UTF-8 ist von der IETF, dem Unicode-Konsortium und der ISO gegenwärtig identisch definiert in den Normdokumenten:

RFC 3629 / STD 63 (2003)RFC 3629 / STD 63^[6]
The Unicode Standard, Version 4.0, §3.9–§3.10 (2003)
ISO/IEC 10646-1:2000 Annex D (2000)

Diese lösen ältere, teilweise abweichende Definitionen ab, die teilweise noch von älterer Software benutzt werden:

ISO/IEC 10646-1:1993 Amendment 2 / Annex R (1996)
The Unicode Standard, Version 2.0, Appendix A (1996)
RFC 2044 (1996)^[7]
RFC 2279 (1998)^[8]
The Unicode Standard, Version 3.0, §2.3 (2000) und Corrigendum #1: UTF-8 Shortest Form (2000)
Unicode Standard Annex #27: Unicode 3.1 (2001)

Allgemeine Eigenschaften

Bei der UTF-8-Kodierung wird jedem Unicode-Zeichen eine Byte-Kette mit einer Länge von zwischen einem und vier Byte zugeordnet.^{[Anm. 1]} Damit lassen sich – wie bei allen UTF-Formaten – alle Unicode-Zeichen abbilden.

Die ersten 128 Unicodezeichen (U+0000 bis U+007F, entsprechend den Positionen 0–127 in allen ISO-8859-Varianten, auch als 7-Bit-ASCII-bezeichnet) werden in UTF-8 deckungsgleich durch nur ein Byte dargestellt. Dies umfasst unter anderem die Ziffern und die Groß- und Kleinbuchstaben des lateinischen Grundalphabets. Zusätzliche Zeichen in europäischen Sprachen mit lateinischer Schrift, z. B. ä, ß, é, ł, Š, werden durch zwei Byte dargestellt. Texte in solchen Sprachen benötigen daher nur wenig mehr als ein Byte pro Zeichen. Englischsprachige Texte lassen sich im Regelfall sogar mit nicht-UTF-8-fähigen Texteditoren ohne Beeinträchtigung bearbeiten.

Griechische, kyrillische oder arabische Buchstaben belegen ebenfalls zwei Bytes. Zeichen aus indischen und fernöstlichen Schriften belegen meist drei Byte, einige seltene Zeichen und Schriften sogar vier Byte je Zeichen.

Im Vergleich zu UTF-16, bei dem alle Zeichen der Basic multilingual plane (BMP) von Unicode durch zwei Byte dargestellt werden, ist UTF-8 für Texte mit relativ hohem Anteil an 7-Bit-ASCII-Zeichen deutlich kompakter, jedoch platzintensiver bei Zeichen zwischen U+0800 und U+FFFF (v. a. asiatische Sprachen, vgl. Liste der Unicodeblöcke)

Aus dem im Folgenden beschriebenen Algorithmus ergeben sich weiterhin folgende Eigenschaften:

Multibyte-Zeichenfolgen bestehen niemals aus 7-Bit-ASCII-Zeichen (ermöglicht Verarbeitung und Parsen mit üblichen 7-Bit-Zeichenkonstanten).
Sortierbarkeit bleibt erhalten, zwei UTF-8-Zeichenketten haben dieselbe Sortierreihenfolge wie zwei unkodierte Unicode-Zeichenketten
In beiden Richtungen durchsuchbar (bei bisherigen MBCS nicht der Fall)
Einfache Transkodierungsfunktion (zudem leicht Hardware-implementierbar)
Reichlich Kodierungsreserve (falls sich am Unicode-Standard doch noch etwas ändert)
selbstsynchronisierend^[9]

Kodierung

Algorithmus

Unicode-Zeichen mit Werten aus dem Bereich von 0 bis 127 (U+00 bis U+7F) werden in der UTF-8-Kodierung als ein Byte^{[Anm. 1]} mit dem gleichen Wert wiedergegeben. In diesem und nur in diesem Fall hat ein Byte der UTF-8-Kodierung eine Null 0 als erstes Bit.

Unicode-Zeichen größer als 127 werden in der UTF-8-Kodierung zu 2 bis 4 Byte langen Bytefolgen. Dabei beginnt das erste Byte immer mit 11, die weiteren Bytes mit 10. Die Anzahl der Einsen 1 vor der ersten Null 0 im ersten Byte ist gleich der Gesamtzahl der Bytes für das Zeichen. Die Bits, die in Unicode ein Zeichen darstellen, werden bündig angeordnet – das niedrigste Bit (least significant bit) des Unicode-Zeichens steht also immer im niedrigsten Bit des letzten UTF-8-Bytes.

Das erste Byte eines UTF-8-kodierten Zeichens nennt man dabei Start-Byte, weitere Bytes heißen Folge-Bytes. Start-Bytes beginnen also immer mit 0 oder 11, Folge-Bytes immer mit 10.

Unicode Codepoints	UTF-8-Kodierung				Anzahl kodierbarer Zeichen
Unicode Codepoints	Byte 1	Byte 2	Byte 3	Byte 4	im Standard erlaubt		theoretisch möglich
U+0000 – U+007F	0a_₆a_₅a_₄a_₃a_₂a_₁a_₀				(2⁷	128	(2⁷	128
U+0080 – U+07FF	110b_₂b_₁b_₀a_₇a_₆	10a_₅a_₄a_₃a_₂a_₁a_₀			(2¹¹ − 2⁷	1920	(2¹¹	2048
U+0800 – U+FFFF	1110b_₇b_₆b_₅b_₄	10b_₃b_₂b_₁b_₀a_₇a_₆	10a_₅a_₄a_₃a_₂a_₁a_₀		(2¹⁶ − 2¹¹	63.488	(2¹⁶	65.536
U+01 0000 – U+10 FFFF	11110c_₄c_₃c_₂	10c_₁c_₀b_₇b_₆b_₅b_₄	10b_₃b_₂b_₁b_₀a_₇a_₆	10a_₅a_₄a_₃a_₂a_₁a_₀	(2²⁰	1.048.576	(2²¹	2.097.152

Mit vier Bytes lässt sich der gesamte Unicode-Bereich abdecken (auch UTF-16 und UTF-32 kodieren den gesamten Wertebereich von Unicode).

Beispiele

In folgender Tabelle sind einige Kodierungsbeispiele für UTF-8 angegeben:

Beispiele für UTF-8 Kodierungen
Zeichen	Unicode	Unicode binär	UTF-8 binär	UTF-8 hexadezimal
Buchstabe y	U+0079	00000000 01111001	01111001	79
Buchstabe ä	U+00E4	00000000 11100100	11000011 10100100	C3 A4
Griechischer Großbuchstabe Omega Ω	U+03A9	00000011 10101001	11001110 10101001	CE A9
Eurozeichen €	U+20AC	00100000 10101100	11100010 10000010 10101100	E2 82 AC
Violinschlüssel 𝄞	U+1D11E	00000001 11010001 00011110	11110000 10011101 10000100 10011110	F0 9D 84 9E

Das letzte Beispiel liegt außerhalb des ursprünglich in Unicode (unter Version 2.0) enthaltenen Codebereiches (16 Bit), der in der aktuellen Unicode-Version als BMP-Bereich (Ebene 0) enthalten ist. Da derzeit viele Schriftarten diese neuen Unicode-Bereiche noch nicht enthalten, können die dort enthaltenen Zeichen auf vielen Plattformen nicht korrekt dargestellt werden. Stattdessen wird ein Ersatzzeichen dargestellt, welches als Platzhalter dient.

Folgerungen

Aus dem Algorithmus ergeben sich folgende Eigenschaften von UTF-8:

Ist das höchste Bit des ersten Bytes 0, handelt es sich um ein ASCII-Zeichen, da ASCII eine 7-Bit-Kodierung ist und die ersten 128 Unicode-Zeichen den ASCII-Zeichen entsprechen. Damit sind alle ASCII-Zeichenketten automatisch aufwärtskompatibel zu UTF-8, oder anders ausgedrückt: Alle Daten, für die ausschließlich ASCII-Zeichen verwendet werden, sind in beiden Darstellungen identisch. Für alle auf dem lateinischen Alphabet basierenden Schriften ist UTF-8 daher eine besonders platzsparende Methode zur Abbildung von Unicode-Zeichen.
Ist das höchste Bit des ersten Bytes 1, handelt es sich um ein Mehrbytezeichen, also ein Unicode-Zeichen mit einer Zeichennummer größer als 127. Sind die höchsten beiden Bits eines Bytes 11, handelt es sich um das Startbyte eines Mehrbytezeichens, sind sie 10, um ein Folgebyte.
Die UTF-8-Kodierungen mit bis zu drei Bytes umfassen die gesamte nullte Unicode-Ebene (Plane 0: Basic Multilingual Plane, Zeichen 0 bis 65.535) und nur diese. Zeichen außerhalb der nullten Ebene benötigen also immer vier Bytes in UTF-8.
Die lexikalische Ordnung nach Bytewerten entspricht der lexikalischen Ordnung nach Zeichennummern, da höhere Zeichennummern mit entsprechend mehr 1-Bits im Start-Byte kodiert werden.
Startbytes (0… oder 11…) und Folgebytes (10…) lassen sich eindeutig voneinander unterscheiden. Somit kann ein Bytestrom auch in der Mitte gelesen werden, ohne dass es Probleme mit der Dekodierung gibt, was insbesondere bei der Wiederherstellung defekter Daten wichtig ist. Bytes beginnend mit 10 werden einfach übersprungen, bis 0… oder 11… erkannt wird. Dass Startbytes und Folgebytes eindeutig voneinander unterschieden sind, ist ein Vorteil der UTF-8-Kodierung. Bei Kodierungen ohne diese Eigenschaft ist das Lesen eines Datenstroms, dessen Beginn unbekannt ist, unter Umständen nicht möglich.

Unzulässige Bereiche

Dieser Algorithmus lässt theoretisch längere Bytesequenzen zu. Ursprünglich wurden auch Folgen aus fünf Bytes (Startbyte 111110xx: F8_hex bis FB_hex) und sechs Bytes (Startbyte 1111110x: FC_hex und FD_hex) definiert, in denen so insgesamt 31 Bit für den enthaltenen Unicode-Wert kodiert werden konnten. In seiner Verwendung als UTF-Kodierung ist er aber auf den gemeinsamen Coderaum aller Unicode-Kodierungen beschränkt, also von U+0000 bis U+10FFFF (17 Ebenen mit insgesamt 1.114.112 Codepoints) und weist maximal vier Bytes lange Byteketten auf. Längere Bytefolgen und größere Werte gelten heute als unzulässige Codes und sind entsprechend zu behandeln. Außerdem gibt es weitere Einschränkungen:

Nach diesem Algorithmus könnten Zeichen auf unterschiedliche Weise kodiert werden – zum Beispiel der Buchstabe „y“ als 01111001 (79_hex) oder fälschlich als 11000001 10111001 (C1 B9_hex). Jedoch erlaubt der Standard nur die jeweils kürzestmögliche Kodierung. Aus diesem Grund können C0_hex und C1_hex niemals in gültigem UTF-8-Code vorkommen. Analog wird „Ω“ als CE A9_hex kodiert, aber nicht als E0 8E A9_hex oder gar als F0 80 8E A9_hex. Diese Mehrdeutigkeit hat mehrfach zu Problemen geführt, wenn Programme bei ungültigen Kodierungen abstürzen, diese als gültig interpretieren oder einfach ignorieren. Die Kombinationen der letzten beiden Verhaltensweisen führte z. B. zu Firewalls, die gefährliche Inhalte auf Grund der ungültigen Kodierung nicht erkennen, wo jedoch der zu schützende Client diese Kodierungen als gültig interpretiert und dadurch gefährdet ist.
Die Unicode-Bereiche U+D800 bis U+DBFF und U+DC00 bis U+DFFF sind ausdrücklich keine Zeichen, sondern dienen nur in UTF-16 zur Kodierung von Zeichen außerhalb der Basic Multilingual Plane, sie wurden früher als Low und High surrogates bezeichnet. Folglich sind Bytefolgen, die diesen Bereichen entsprechen, kein gültiges UTF-8. Zum Beispiel wird U+10400 in UTF-16 als D801,DC00 dargestellt, sollte in UTF-8 aber als F0,90,90,80 und nicht als ED,A0,81,ED,B0,80 ausgedrückt werden. Java unterstützt dies seit der Version 1.5.^[10] Aufgrund der weiten Verbreitung der falschen Kodierung, insbesondere auch in Datenbanken, wurde diese Kodierung nachträglich als CESU-8 normiert.

Zulässige Bytes und ihre Bedeutung

Durch die Kodierungsregel von UTF-8 sind bestimmte Bytewerte nicht zulässig. In nachfolgender Tabelle sind alle 256 Möglichkeiten aufgeführt und deren Verwendung bzw. Gültigkeit angegeben. Bytewerte in roten Zeilen sind unzulässig, grün beschreibt zulässige Bytewerte, welche unmittelbar ein Zeichen darstellen. In blau sind jene Werte hinterlegt, welche den Start einer Sequenz von zwei oder mehr Byte beginnen und als Sequenz mit den Bytewerten aus orange hinterlegten Zeilen fortgesetzt werden.

UTF-8 Wertebereich

Bedeutung

Binär

Hexadezimal

Dezimal

00000000–01111111

00–7F

0–127

Ein Byte lange Zeichen, deckungsgleich mit U+0000 … U+007F

10000000–10111111

80–BF

128–191

Zweites, drittes oder viertes Byte einer Bytesequenz

11000000–11000001

C0–C1

192–193

Start einer 2 Byte langen Sequenz, die U+0000 … U+007F kodiert, unzulässig

11000010–11011111

C2–DF

194–223

Start einer 2 Byte langen Sequenz, kodiert U+0080 … U+07FF

Startbyte	abgedeckter Codebereich
C2	U+0080 … U+00BF
C3	U+00C0 … U+00FF
C4	U+0100 … U+013F
C5	U+0140 … U+017F
C6	U+0180 … U+01BF
C7	U+01C0 … U+01FF
C8	U+0200 … U+023F
C9	U+0240 … U+027F
CA	U+0280 … U+02BF
CB	U+02C0 … U+02FF
CC	U+0300 … U+033F
CD	U+0340 … U+037F
CE	U+0380 … U+03BF
CF	U+03C0 … U+03FF
D0	U+0400 … U+043F
D1	U+0440 … U+047F
D2	U+0480 … U+04BF
D3	U+04C0 … U+04FF
D4	U+0500 … U+053F
D5	U+0540 … U+057F
D6	U+0580 … U+05BF
D7	U+05C0 … U+05FF
D8	U+0600 … U+063F
D9	U+0640 … U+067F
DA	U+0680 … U+06BF
DB	U+06C0 … U+06FF
DC	U+0700 … U+073F
DD	U+0740 … U+077F
DE	U+0780 … U+07BF
DF	U+07C0 … U+07FF

11100000–11101111

E0–EF

224–239

Start einer 3 Byte langen Sequenz, kodiert U+0800 … U+FFFF

Startbyte	abgedeckter Codebereich
E0	U+0800 … U+0FFF (2. Byte: 80 … 9F ist unzulässige Kodierung für U+0000 … U+07FF)
E1	U+1000 … U+1FFF
E2	U+2000 … U+2FFF
E3	U+3000 … U+3FFF
E4	U+4000 … U+4FFF
E5	U+5000 … U+5FFF
E6	U+6000 … U+6FFF
E7	U+7000 … U+7FFF
E8	U+8000 … U+8FFF
E9	U+9000 … U+9FFF
EA	U+A000 … U+AFFF
EB	U+B000 … U+BFFF
EC	U+C000 … U+CFFF
ED	U+D000 … U+DFFF (2. Byte A0 … BF ist unzulässig, siehe CESU-8)
EE	U+E000 … U+EFFF (Private Use Zone)
EF	U+F000 … U+FFFF (Private Use Zone, wenn 2. Byte im Bereich 80 … A3)

11110000–11110100

F0–F4

240–244

Start einer 4 Byte langen Sequenz, kodiert U+100000 … U+10FFFF(≥ 110000_hex nicht mehr in Unicode)

Startbyte	abgedeckter Codebereich
F0	U+10000 … U+3FFFF (2. Byte 80 … 8F ist unzulässige Kodierung von U+0000 … U+FFFF; 9/A/B… bilden Unicode-Ebenen 1–3 ab)
F1	U+40000 … U+7FFFF (Ebene 4–7, derzeit nicht verwendet)
F2	U+80000 … U+BFFFF (Ebene 8–11, derzeit nicht verwendet)
F3	U+C0000 … U+FFFFF (Ebene 12–15)
F4	U+100000 … U+10FFFF (2. Byte muss aus Bereich 80 … 8F sein; Ebenen >16 sind in Unicode undefiniert)

11110101–11110111

F5–F7

245–247

Ungültig nach RFC 3629:^[6] Start einer 4 Byte langen Sequenz für Bereich ab 140000_hex (nicht mehr in Unicode)

11111000–11111011

F8–FB

248–251

Ungültig nach RFC 3629:^[6] Start einer 5 Byte langen Sequenz

11111100–11111101

FC–FD

252–253

Ungültig nach RFC 3629:^[6] Start einer 6 Byte langen Sequenz

11111110–11111111

FE–FF

254–255

Ungültig. In der ursprünglichen UTF-8-Spezifikation nicht definiert.

Code	…0	…1	…2	…3	…4	…5	…6	…7	…8	…9	…A	…B	…C	…D	…E	…F
0…	NUL	SOH	STX	ETX	EOT	ENQ	ACK	BEL	BS	HT	LF	VT	FF	CR	SO	SI
1…	DLE	DC1	DC2	DC3	DC4	NAK	SYN	ETB	CAN	EM	SUB	ESC	FS	GS	RS	US
2…	SP	!	"	#	$	%	&	'	(	)	*	+	,	-	.	/
3…	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
4…	@	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O
5…	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]	^	_
6…	`	a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
7…	p	q	r	s	t	u	v	w	x	y	z	{	\|	}	~	DEL
8…	Zweites, drittes oder viertes Byte einer Bytesequenz
9…
A…
B…
C…	unzulässig		Start einer 2 Byte langen Sequenz
D…			Start einer 2 Byte langen Sequenz
E…	Start einer 3 Byte langen Sequenz
F…	Start einer 4 Byte langen Sequenz
	…0	…1	…2	…3	…4	…5	…6	…7	…8	…9	…A	…B	…C	…D	…E	…F

Darstellung in Editoren

Wenn Daten mit einer anderen Kodierung (beispielsweise ISO-8859) als UTF-8 gelesen werden oder umgekehrt, können Zeichen falsch dargestellt werden.

Kann eine Byte-Sequenz nicht als UTF-8-Zeichen interpretiert werden, so wird es beim Lesen in der Regel durch das Ersetzungszeichen � (U+FFFD, in UTF-8: EF,BF,BD) ersetzt.

Umlaute und ß in deutschen Texten

Die Buchstaben des lateinischen Grundalphabets sowie die wichtigsten Satzzeichen werden in UTF-8 und ISO 8859 identisch angezeigt. Probleme mit der falsch gewählten Zeichencodierung treten bei den anderen Zeichen auf, beispielsweise bei Umlauten. In deutschsprachigen Texten treten diese Zeichen jedoch nur vereinzelt auf, sodass der Text zwar stark entstellt wirkt, aber meist noch lesbar bleibt.

UTF-8-Text mit anderem Encoding geöffnet:
Code	UTF-8		ISO 8859-1	ISO 8859-15	UTF16
C3 84_hex	U+00C4	Ä	Ã	Ã	쎄
C3 96_hex	U+00D6	Ö	Ã	Ã	쎖
C3 9C_hex	U+00DC	Ü	Ã	Ã	쎜
C3 9F_hex	U+00DF	ß	Ã	Ã	쎟
C3 A4_hex	U+00E4	ä	Ã¤	Ã€	쎤
C3 B6_hex	U+00F6	ö	Ã¶	Ã¶	쎶
C3 BC_hex	U+00FC	ü	Ã¼	ÃŒ	쎼

ISO-8859-Text mit UTF 8 geöffnet:
Code	ISO 8859-1/15	UTF-8
C4_hex	Ä	Startbyte für U+0100 bis U+013F
D6_hex	Ö	Startbyte für U+0580 bis U+013F
DC_hex	Ü	Startbyte für U+0100 bis U+013F
DF_hex	ß	Startbyte für U+0580 bis U+05BF
E4_hex	ä	Startbyte für U+4000 bis U+4FFF
F6_hex	ö	unzulässig
FC_hex	ü	unzulässig

In UTF-8 bestehen die Umlaute des deutschen Alphabets (sofern sie in der Normalform NFC vorliegen, also als precomposed character) und das ß aus zwei Bytes; nach ISO 8859 wird jedes dieser Zeichen als 1 Byte codiert und jedes Byte beim Lesen in ein Zeichen transformiert. Das in der UTF-8-Kodierung dieser Buchstaben gemeinsame erste Byte C3_hex wird in den meisten ISO-8859-Varianten als Ã decodiert. Bei ÄÖÜß wird das zweite Byte nicht oder mit dem gleichen Fehler-Zeichen dargestellt, weil 7F_hex bis 9F_hex in ISO 8859 nicht definiert sind.

Umgekehrt führen bei der Interpretation eines in ISO-8859-codierten Textes als UTF-8 die Buchstaben öü zur Anzeige eines Ersetzungszeichens, weil der entsprechende Byte-Wert nicht definiert ist. Bei den Buchstaben ÄÖÜß wird ein Start-Byte angenommen und versucht, das nächste Byte als Folgebyte gemeinsam als ein Zeichen zu interpretieren. Das scheitert in der Regel, weil die Codierungen der meisten Buchstaben – aller Buchstaben im Fall von ISO 8859-1 – keine gültigen Folgebytes sind. Bei einem ä wird sogar versucht, die nächsten beiden Bytes als Folgebytes zu interpretieren, was aus denselben Gründen regelmäßig scheitert. Je nach Programmierung des anzeigenden Programms verschwinden womöglich entsprechend viele Buchstaben aus dem Text.

Ein Beispiel für das Wort Höhe:

UTF-8-Text in ISO-8859-1/15-Umgebung: Höhe → HÃ¶he.
ISO-8859-1-Text in UTF-8-Umgebung: Höhe → H�he. Da ein Byte mit dem Hexadezimalwert F6 in UTF-8 nicht zulässig ist, kann es anstelle des Ersetzungszeichens auch zu einer Fehlermeldung mit Abbruch kommen.

Andere Sprachen

Bei anderen Sprachen, die das lateinische Alphabet verwenden (Französisch, Schwedisch, Kroatisch…) sind die Verhältnisse ähnlich. Texte mit nichtlateinischen Alphabeten (z. B. in ISO 8859-7 codierter griechischer Text) sind hingegen unlesbar, wenn sie als UTF-8 interpretiert werden.

Byte Order Mark

Obwohl bei UTF-8 aufgrund der Art der Kodierung grundsätzlich nicht das Problem unterschiedlicher Bytereihenfolgen auftreten kann, fügen einige Programme eine Byte Order Mark (BOM, deutsch Bytereihenfolge-Markierung) am Dateianfang von UTF-8-Dateien ein. Die BOM besteht aus der Bytesequenz EF BB BF, die in nicht UTF-8-fähigen Texteditoren und Browsern meist als ISO-8859-1-Zeichenfolge ï»¿ erscheint und für Kompatibilitätsprobleme verantwortlich sein kann.

Alternativen

Die Verarbeitung von UTF-8 als Multibyte-Zeichenfolge erfordert mehr Rechenzeit als Zeichenkodierungen mit fester Byteanzahl und ‑zuordnung, weil jedes Byte analysiert und ggf. konvertiert werden muss. Eine Kodierung ohne Konversion war UCS-2, das Microsoft 1993 mit Windows NT 3.1 einführte. Hier wurde jedes Zeichen ursprünglich fest mit zwei Bytes belegt, wodurch der ursprüngliche Unicode-Umfang von 65.535 Zeichen abdeckbar war, um den Preis eines erhöhten Speicherbedarfs (ungefähr Faktor 2 bei Englisch und westeuropäischen Sprachen). Da durch die spätere Weiterentwicklung von Unicode jedoch mit dieser Kodierung nicht mehr alle Zeichen darstellbar waren, erfolgte mit Windows 2000 ein neuerlicher Umstieg auf den kompatiblen Nachfolger UTF-16 Little Endian, womit man allerdings zugleich die Vorteile einer Kodierung mit fester Byteanzahl wieder verlor.^[11]

Weblinks

Wiktionary: UTF-8 – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

RFC: 3629 – UTF-8, a transformation format of ISO 10646. 2003 – Standard: [STD63] (englisch).
UTF-8-Codetabelle mit Unicode-Zeichen – UTF-8-Kodierung aller Unicode-Positionen aus der BMP mit Zusatzinformationen und benannten HTML-Entitäten
Dieter Pawelczak: Kodierung von Zeichenfolgen. Beispiel UCS/UTF8. Universität der Bundeswehr München, Institut für Software Engineering.
Pavel Radzivilovsky, Yakov Galka, Slava Novgorodov: UTF-8 Everywhere. Manifesto. (englisch)

Anmerkungen

↑ ^a ^b Der Begriff „Byte“ wird in diesem Artikel stets im Sinne von „Oktett“ verwendet.

Einzelnachweise

↑ RFC: 3629 – UTF-8, a transformation format of ISO 10646. 2003, Abschnitt 1: Introduction. (englisch).
↑ Historical trends in the usage of character encodings for websites. In: W3Techs. Q-Success, abgerufen am 5. März 2019 (englisch).
↑ Usage of character encodings broken down by ranking. In: W3Techs. Q-Success, abgerufen am 7. März 2019 (englisch).
↑ Usage statistics of character encodings for websites. In: W3Techs. Q-Success, abgerufen am 31. Oktober 2021 (englisch).
↑ Using International Characters in Internet Mail. (Memento vom 26. Oktober 2007 im Internet Archive) Internet Mail Consortium, 1. August 1998, abgerufen am 12. Juli 2012 (englisch).
↑ ^a ^b ^c ^d RFC: 3629 – UTF-8, a transformation format of ISO 10646. 2003 – Standard: [STD63] (englisch).
↑ RFC: 2044 – UTF-8, a transformation format of Unicode and ISO 10646. Oktober 1996 (englisch).
↑ RFC: 2279 – UTF-8, a transformation format of ISO 10646. Januar 1998 (englisch).
↑ UTF-8: Bits, Bytes, and Benefits
↑ Norbert Lindenberg, Masayoshi Okutsu: Supplementary Characters in the Java Platform. In: Oracle Website. Sun Microsystems, Mai 2004, abgerufen am 9. Juni 2019 (englisch).
↑ UTF-8 Everywhere Manifesto. Abgerufen am 22. Dezember 2021 (englisch).

[AnmByte-9] Der Begriff „Byte“ wird in diesem Artikel stets im Sinne von „Oktett“ verwendet.

[1] RFC: 3629 – UTF-8, a transformation format of ISO 10646. 2003, Abschnitt 1: Introduction. (englisch).

[2] Historical trends in the usage of character encodings for websites. In: W3Techs. Q-Success, abgerufen am 5. März 2019 (englisch).

[3] Usage of character encodings broken down by ranking. In: W3Techs. Q-Success, abgerufen am 7. März 2019 (englisch).

[4] Usage statistics of character encodings for websites. In: W3Techs. Q-Success, abgerufen am 31. Oktober 2021 (englisch).

[5] Using International Characters in Internet Mail. (Memento vom 26. Oktober 2007 im Internet Archive) Internet Mail Consortium, 1. August 1998, abgerufen am 12. Juli 2012 (englisch).

[RFC3629-6] RFC: 3629 – UTF-8, a transformation format of ISO 10646. 2003 – Standard: [STD63] (englisch).

[7] RFC: 2044 – UTF-8, a transformation format of Unicode and ISO 10646. Oktober 1996 (englisch).

[8] RFC: 2279 – UTF-8, a transformation format of ISO 10646. Januar 1998 (englisch).

[10] UTF-8: Bits, Bytes, and Benefits

[11] Norbert Lindenberg, Masayoshi Okutsu: Supplementary Characters in the Java Platform. In: Oracle Website. Sun Microsystems, Mai 2004, abgerufen am 9. Juni 2019 (englisch).

[12] UTF-8 Everywhere Manifesto. Abgerufen am 22. Dezember 2021 (englisch).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[Anm. 1]

[9]

[10]

[11]