Unicode: Ein paar Anmerkungen
Die folgenden Informationen sind ein Excerpt aus dem Artikel "Demystifying Unicode" von Andrea Vine.
Für ausführliche Informationen siehe auch www.unicode.org.
Für die eigene Erstellung einer Unicode-Zeichensatztabelle siehe die Seite Windows-Zeichensatztabelle für ANSI und Unicode.
Unicode versus ISO 10646
ISO 10646 ist ein Zeichensatz, der Schriftzeichen binären Codenummern zuordnet. Unicode hingegen ordnet den 2- bzw. 4-Byte-Code denselben Schriftzeichen zu, ergänzt die Definition aber um Zeicheneigenschaften, Implementationsregeln und Hinweise. Unicode ist eine private Organisation verschiedener kommerzieller Unternehmen, akademischer Einrichtungen und Anwendergruppen. ISO (International Standards Organisation, eine Unterorganisation der UNO) und Unicode arbeiten seit 1991 zusammen, um Diskrepanzen zwischen ISO 10646 und Unicode zu vermeiden.
Unicode-Grundlagen
Unicode basiert auf 10 grundlegenden Prinzipien:
- 16-bit Zeichensatz
- Vollständige Codierung einschließlich Eigenschaften wie Laufrichtung und notwendige Abstände
- Enthält nur Schriftzeichen, keine Glyphen (Glyphen: Beschreibungen der Zeichenvarianten wie Schriftart, Schriftschnitt etc. aber auch Ligaturen und positionsabhängige Schreibweisen wie im Arabischen)
- Semantische Regeln
- Reiner Text
- Logische Sortierung
- Vereinheitlichung (z.B. über Sprachen hinweg)
- Dynamische Komposition (diakritische Zeichen, z.B. á)
- Äquivalente Sequenz (Gleichwertigkeit des Zeichens "é" und der Kombination aus den Zeichen "e" + "´")
- Konvertierbarkeit (Hin- und Rückkonvertierungen von Text zwischen Unicode und anderen Standards sollen als Ergebnis wieder exakt den Ausgangscode ergeben)
Unicode enthält Zeichen lebender Sprachen, Schriftzeichen toter Sprachen wurden nicht gezielt aufgenommen.
Haben zwei Zeichen unterschiedlicher Sprachen die gleiche optische Präsenz (z.B. Lateinisch "P" und kyrillisch "P", letzteres entspricht dem lateinischen "R"), sind sie als zwei Zeichen kodiert.
Teilimplementationen des Gesamtzeichensatzes sind zulässig.
Die Codefolge eines Textes richtet sich nach der Schreibfolge, nicht der Folge der gerenderten Zeichen.
Mapping
0000 - 1FFF: Allgemeine Schriften
- Basic Latin: U+0000 - U+007F
- Latin-1 Supplement: U+0080 - U+00FF
- Latin Extended-A: U+0100 - U+017F
- Latin Extended-B: U+0180 - U+024F
- IPA Extensions: U+0250 - U+02AF
- Spacing Modifier Letters: U+02B0 - U+02FF
- Combining Diacritical Marks: U+0300 - U+036F
- Greek: U+0370 - U+03FF
- Cyrillic: U+0400 - U+04FF
- Armenian: U+0530 - U+058F
- Hebrew: U+0590 - U+05FF
- Arabic: U+0600 - U+06FF
- Devanagari: U+0900 - U+097F
- Bengali: U+0980 - U+09FF
- Gurmukhi: U+0A00 - U+0A7F
- Gujarati: U+0A80 - U+0AFF
- Oriya: U+0B00 - U+0B7F
- Tamil: U+0B80 - U+0BFF
- Telugu: U+0C00 - U+0C7F
- Kannada: U+0C80 - U+0CFF
- Malayalam: U+0D00 - U+0D7F
- Thai: U+0E00 - U+0E7F
- Lao: U+0E80 - U+0EFF
- Tibetan: U+0F00 - U+0FBF
- Georgian: U+10A0 - U+10FF
- Hangul Jamo: U+1100 - U+11FF
- Latin Extended Additional: U+1E00 - U+1EFF
- Greek Extended: U+1F00 - U+1FFF
2000 - 2FFF: Symbole
- Allgemeine Satzzeichen: U+2000 - U+206F
- Hochgestellte und tiefgestellte Zeichen: U+2070 - U+209F
- Währungssymbole: U+20A0 - U+20CF
- Kombinationszeichen für Symbole: U+20D0 - U+20FF
- Buchstabenartige Symbole: U+2100 - U+214F
- Ziffernformen: U+2150 - U+218F
- Pfeile: U+2190 - U+21FF
- Mathematische Operatoren: U+2200 - U+22FF
- Verschiedenes Technik: U+2300 - U+23FF
- Bildzeichen (Control Pictures): U+2400 - U+243F
- OCR-Zeichen (für optische Zeichenerkennung): U+2440 - U+245F
- Enclosed Alphanumerics: U+2460 - U+24FF
- Linien: U+2500 - U+257F
- Block Elements: U+2580 - U+259F
- Geometrische Formen: U+25A0 - U+25FF
- Verschiedene Symbole: U+2600 - U+26FF
- Dingbats: U+2700 - U+27BF
3000 - 33FF: Chinesisch/Japanisch/Koreanisch (CJK) - verschiedenes
- CJK-Symbole und Satzzeichen: U+3000 - U+303F
- Hiragana: U+3040 - U+309F
- Katakana: U+30A0 - U+30FF
- Bopomofo: U+3100 - U+312F
- Hangul Compatibility Jamo: U+3130 - U+318F
- Kanbun: U+3190 - U+319F
- Enclosed CJK Letters and Months: U+3200 - U+32FF
- CJK Compatibility: U+3300 - U+33FF
4E00 - 9FFF: CJK-Ideographen
AC00 - D7A3: Hangul
D800 - DFFF: Surrogates
Dieser Bereich wird zukünftig mit bislang nicht kodierten Schriftzeichen aus toten Sprachen bzw. zusätzlichen Kanji-Zeichen aus dem Chinesischen/Japanischen/Koreanischen belegt, wobei durch Kombination von 2 16-bit-Werten ein Zeichenraum von 1 Million Zeichen bereitgestellt wird.
E000 - F8FF: Private use
Hier kann sich jeder in Abstimmung mit dem Unicode-Konsortium seine eigenen Zeichen definieren.
F900 - FFFF: Kompatibilitäts- und Sonderzeichen
- CJK Compatibility Ideographs: U+F900 - U+FAFF
- Alphabetic Presentation Forms: U+FB00 - U+FB4F
- Arabic Presentation Forms-A: U+FB50 - U+FDFF
- Combining Half Marks: U+FE20 - U+FE2F
- CJK Compatibility Forms: U+FE30 - U+FE4F
- Small Form Variants: U+FE50 - U+FE6F
- Arabic Presentation Forms-B: U+FE70 - U+FEFF
- Halfwidth and Fullwidth Forms: U+FF00 - U+FFEF
- Sonderzeichen: U+FEFF, U+FFF0 - U+FFFF
InvitationWare
- Invitation (Englisch): Einladung
- Invitation for tender: Ausschreibung
Die Informationen auf www.transcom.de sind InvitationWare: Einerseits sind Sie eingeladen, sie zu nutzen. Andererseits, wenn die Informationen auf diesen Seiten Ihnen geholfen haben oder die Tipps und Programme für Sie nützlich sind, dann erinnern Sie sich doch an Transcom, wenn Sie mal wieder einen Auftrag in einem unserer Fachgebiete zu vergeben haben — und senden uns eine Einladung zum Angebot. Rufen Sie uns an oder senden uns eine E-Mail.