Unicode | Lexikon – Definitionen A

Unicode: internationaler Standard zur einheitlichen Kodierung der Schriftzeichen praktisch aller heute gebräuchlichen und vieler historischer Schriften, gepflegt vom Unicode Consortium mit Sitz im US-Bundesstaat Kalifornien.

Unicode entstand als Antwort auf das Nebeneinander zahlreicher älterer, inkompatibler Zeichensätze wie ASCII, ISO-8859 oder regionaler Codepages, die jeweils nur einen kleinen Ausschnitt aller Schriftzeichen abdeckten. Mit Unicode erhält jedes Zeichen — von lateinischen Buchstaben über chinesische Schriftzeichen, Sonderzeichen, mathematische Symbole bis hin zu Emojis — eine eindeutige Nummer, den sogenannten Codepoint. Die erste Version erschien 1991; aktuelle Versionen umfassen über 150.000 Zeichen aus mehr als 150 Schriften.

Codepoints werden in unterschiedlichen Kodierungen als Bytes abgespeichert. Verbreitet ist vor allem UTF-8, das ASCII-Zeichen mit einem Byte und entferntere Zeichen mit zwei bis vier Byte darstellt und damit abwärtskompatibel zu reinem ASCII ist. Daneben existieren UTF-16 (zwei oder vier Byte pro Zeichen) und UTF-32 (immer vier Byte).

Unicode ist heute Standard in nahezu allen modernen Programmiersprachen, Betriebssystemen, Datenbanken und Dateiformaten. Im Web verlangt die HTML-Spezifikation Unicode (üblicherweise UTF-8) als Voraussetzung; auch JSON, XML und moderne E-Mail-Standards sind unicodefähig. Probleme entstehen heute hauptsächlich noch beim Import alter Daten aus Legacy-Zeichensätzen, die nicht eindeutig erkannt werden („Mojibake”).