Unicode: Ein paar Anmerkungen

Die folgenden Informationen sind ein Excerpt aus dem Artikel "Demystifying Unicode" von Andrea Vine.

Für ausführliche Informationen siehe auch www.unicode.org.

Für die eigene Erstellung einer Unicode-Zeichensatztabelle siehe die Seite Windows-Zeichensatztabelle für ANSI und Unicode.

Unicode versus ISO 10646

ISO 10646 ist ein Zeichensatz, der Schriftzeichen binären Codenummern zuordnet. Unicode hingegen ordnet den 2- bzw. 4-Byte-Code denselben Schriftzeichen zu, ergänzt die Definition aber um Zeicheneigenschaften, Implementationsregeln und Hinweise. Unicode ist eine private Organisation verschiedener kommerzieller Unternehmen, akademischer Einrichtungen und Anwendergruppen. ISO (International Standards Organisation, eine Unterorganisation der UNO) und Unicode arbeiten seit 1991 zusammen, um Diskrepanzen zwischen ISO 10646 und Unicode zu vermeiden.

Unicode-Grundlagen

Unicode basiert auf 10 grundlegenden Prinzipien:

16-bit Zeichensatz
Vollständige Codierung einschließlich Eigenschaften wie Laufrichtung und notwendige Abstände
Enthält nur Schriftzeichen, keine Glyphen (Glyphen: Beschreibungen der Zeichenvarianten wie Schriftart, Schriftschnitt etc. aber auch Ligaturen und positionsabhängige Schreibweisen wie im Arabischen)
Semantische Regeln
Reiner Text
Logische Sortierung
Vereinheitlichung (z.B. über Sprachen hinweg)
Dynamische Komposition (diakritische Zeichen, z.B. á)
Äquivalente Sequenz (Gleichwertigkeit des Zeichens "é" und der Kombination aus den Zeichen "e" + "´")
Konvertierbarkeit (Hin- und Rückkonvertierungen von Text zwischen Unicode und anderen Standards sollen als Ergebnis wieder exakt den Ausgangscode ergeben)

Unicode enthält Zeichen lebender Sprachen, Schriftzeichen toter Sprachen wurden nicht gezielt aufgenommen.

Haben zwei Zeichen unterschiedlicher Sprachen die gleiche optische Präsenz (z.B. Lateinisch "P" und kyrillisch "P", letzteres entspricht dem lateinischen "R"), sind sie als zwei Zeichen kodiert.

Teilimplementationen des Gesamtzeichensatzes sind zulässig.

Die Codefolge eines Textes richtet sich nach der Schreibfolge, nicht der Folge der gerenderten Zeichen.

Mapping

0000 - 1FFF: Allgemeine Schriften

Basic Latin: U+0000 - U+007F
Latin-1 Supplement: U+0080 - U+00FF
Latin Extended-A: U+0100 - U+017F
Latin Extended-B: U+0180 - U+024F
IPA Extensions: U+0250 - U+02AF
Spacing Modifier Letters: U+02B0 - U+02FF
Combining Diacritical Marks: U+0300 - U+036F
Greek: U+0370 - U+03FF
Cyrillic: U+0400 - U+04FF
Armenian: U+0530 - U+058F
Hebrew: U+0590 - U+05FF
Arabic: U+0600 - U+06FF
Devanagari: U+0900 - U+097F
Bengali: U+0980 - U+09FF
Gurmukhi: U+0A00 - U+0A7F
Gujarati: U+0A80 - U+0AFF
Oriya: U+0B00 - U+0B7F
Tamil: U+0B80 - U+0BFF
Telugu: U+0C00 - U+0C7F
Kannada: U+0C80 - U+0CFF
Malayalam: U+0D00 - U+0D7F
Thai: U+0E00 - U+0E7F
Lao: U+0E80 - U+0EFF
Tibetan: U+0F00 - U+0FBF
Georgian: U+10A0 - U+10FF
Hangul Jamo: U+1100 - U+11FF
Latin Extended Additional: U+1E00 - U+1EFF
Greek Extended: U+1F00 - U+1FFF

2000 - 2FFF: Symbole

Allgemeine Satzzeichen: U+2000 - U+206F
Hochgestellte und tiefgestellte Zeichen: U+2070 - U+209F
Währungssymbole: U+20A0 - U+20CF
Kombinationszeichen für Symbole: U+20D0 - U+20FF
Buchstabenartige Symbole: U+2100 - U+214F
Ziffernformen: U+2150 - U+218F
Pfeile: U+2190 - U+21FF
Mathematische Operatoren: U+2200 - U+22FF
Verschiedenes Technik: U+2300 - U+23FF
Bildzeichen (Control Pictures): U+2400 - U+243F
OCR-Zeichen (für optische Zeichenerkennung): U+2440 - U+245F
Enclosed Alphanumerics: U+2460 - U+24FF
Linien: U+2500 - U+257F
Block Elements: U+2580 - U+259F
Geometrische Formen: U+25A0 - U+25FF
Verschiedene Symbole: U+2600 - U+26FF
Dingbats: U+2700 - U+27BF

3000 - 33FF: Chinesisch/Japanisch/Koreanisch (CJK) - verschiedenes

CJK-Symbole und Satzzeichen: U+3000 - U+303F
Hiragana: U+3040 - U+309F
Katakana: U+30A0 - U+30FF
Bopomofo: U+3100 - U+312F
Hangul Compatibility Jamo: U+3130 - U+318F
Kanbun: U+3190 - U+319F
Enclosed CJK Letters and Months: U+3200 - U+32FF
CJK Compatibility: U+3300 - U+33FF

4E00 - 9FFF: CJK-Ideographen

AC00 - D7A3: Hangul

D800 - DFFF: Surrogates

Dieser Bereich wird zukünftig mit bislang nicht kodierten Schriftzeichen aus toten Sprachen bzw. zusätzlichen Kanji-Zeichen aus dem Chinesischen/Japanischen/Koreanischen belegt, wobei durch Kombination von 2 16-bit-Werten ein Zeichenraum von 1 Million Zeichen bereitgestellt wird.

E000 - F8FF: Private use

Hier kann sich jeder in Abstimmung mit dem Unicode-Konsortium seine eigenen Zeichen definieren.

F900 - FFFF: Kompatibilitäts- und Sonderzeichen

CJK Compatibility Ideographs: U+F900 - U+FAFF
Alphabetic Presentation Forms: U+FB00 - U+FB4F
Arabic Presentation Forms-A: U+FB50 - U+FDFF
Combining Half Marks: U+FE20 - U+FE2F
CJK Compatibility Forms: U+FE30 - U+FE4F
Small Form Variants: U+FE50 - U+FE6F
Arabic Presentation Forms-B: U+FE70 - U+FEFF
Halfwidth and Fullwidth Forms: U+FF00 - U+FFEF
Sonderzeichen: U+FEFF, U+FFF0 - U+FFFF

InvitationWare

Invitation (Englisch): Einladung
Invitation for tender: Ausschreibung

Die Informationen auf www.transcom.de sind InvitationWare: Einerseits sind Sie eingeladen, sie zu nutzen. Andererseits, wenn die Informationen auf diesen Seiten Ihnen geholfen haben oder die Tipps und Programme für Sie nützlich sind, dann erinnern Sie sich doch an Transcom, wenn Sie mal wieder einen Auftrag in einem unserer Fachgebiete zu vergeben haben — und senden uns eine Einladung zum Angebot. Rufen Sie uns an oder senden uns eine E-Mail.