UTF-8

8-bit UCS Transformation Format, kurz UTF-8: weltweit verbreitete Kodierung für Zeichen des Unicode-Standards.

UTF-8 ist eine Zeichenkodierung mit variabler Länge: jedes Zeichen wird mit ein bis vier Byte dargestellt. ASCII-Zeichen (lateinische Buchstaben ohne Akzent, Ziffern und einfache Satzzeichen) benötigen weiterhin nur ein Byte und sind bitidentisch mit reinem ASCII. Häufige Zeichen europäischer Sprachen wie Umlaute werden mit zwei Byte kodiert, viele Schriftzeichen aus dem Chinesischen, Japanischen oder Koreanischen mit drei, Emojis und weniger gebräuchliche historische Zeichen mit vier Byte.

Entwickelt wurde UTF-8 1992 von Ken Thompson und Rob Pike auf Basis eines Entwurfs der Unicode-Arbeitsgruppe. Die Eigenschaft, vorhandene ASCII-Texte ohne Änderung weiterverwenden zu können, hat maßgeblich zur Verbreitung beigetragen.

UTF-8 ist heute die Standard-Kodierung des Webs: in HTML wird sie von der Spezifikation empfohlen, in JSON ist sie verbindlich. Auch zahlreiche Programmiersprachen, Betriebssysteme und Dateiformate verwenden UTF-8 als Standard. Im Unterschied dazu kodieren UTF-16 und UTF-32 alle Zeichen mit jeweils zwei beziehungsweise vier Byte und sind im Web kaum verbreitet.

ESC