Transcom-Logo. Transcom bietet Technische Dokumentation und technische Kommunikation
 
» Home  > Tipps + Tricks  > Redaktion  > Unicode-Fonts und -Codierung English  Deutsch

Unicode: Ein paar Anmerkungen

Die folgenden Informationen sind ein Excerpt aus dem Artikel (Link extern) "Demystifying Unicode" von Andrea Vine.

Für ausführliche Informationen siehe auch (Link extern) www.unicode.org.

Für die eigene Erstellung einer Unicode-Zeichensatztabelle siehe die Seite (Link intern) Windows-Zeichensatztabelle für ANSI und Unicode.

Unicode versus ISO 10646

ISO 10646 ist ein Zeichensatz, der Schriftzeichen binären Codenummern zuordnet. Unicode hingegen ordnet den 2- bzw. 4-Byte-Code denselben Schriftzeichen zu, ergänzt die Definition aber um Zeicheneigenschaften, Implementationsregeln und Hinweise. Unicode ist eine private Organisation verschiedener kommerzieller Unternehmen, akademischer Einrichtungen und Anwendergruppen. ISO (International Standards Organisation, eine Unterorganisation der UNO) und Unicode arbeiten seit 1991 zusammen, um Diskrepanzen zwischen ISO 10646 und Unicode zu vermeiden.

Unicode-Grundlagen

Unicode basiert auf 10 grundlegenden Prinzipien:

  • 16-bit Zeichensatz
  • Vollständige Codierung einschließlich Eigenschaften wie Laufrichtung und notwendige Abstände
  • Enthält nur Schriftzeichen, keine Glyphen (Glyphen: Beschreibungen der Zeichenvarianten wie Schriftart, Schriftschnitt etc. aber auch Ligaturen und positionsabhängige Schreibweisen wie im Arabischen)
  • Semantische Regeln
  • Reiner Text
  • Logische Sortierung
  • Vereinheitlichung (z.B. über Sprachen hinweg)
  • Dynamische Komposition (diakritische Zeichen, z.B. á)
  • Äquivalente Sequenz (Gleichwertigkeit des Zeichens "é" und der Kombination aus den Zeichen "e" + "´")
  • Konvertierbarkeit (Hin- und Rückkonvertierungen von Text zwischen Unicode und anderen Standards sollen als Ergebnis wieder exakt den Ausgangscode ergeben)

Unicode enthält Zeichen lebender Sprachen, Schriftzeichen toter Sprachen wurden nicht gezielt aufgenommen.

Haben zwei Zeichen unterschiedlicher Sprachen die gleiche optische Präsenz (z.B. Lateinisch "P" und kyrillisch "P", letzteres entspricht dem lateinischen "R"), sind sie als zwei Zeichen kodiert.

Teilimplementationen des Gesamtzeichensatzes sind zulässig.

Die Codefolge eines Textes richtet sich nach der Schreibfolge, nicht der Folge der gerenderten Zeichen.

Mapping

0000 - 1FFF: Allgemeine Schriften

  • Basic Latin: U+0000 - U+007F
  • Latin-1 Supplement: U+0080 - U+00FF
  • Latin Extended-A: U+0100 - U+017F
  • Latin Extended-B: U+0180 - U+024F
  • IPA Extensions: U+0250 - U+02AF
  • Spacing Modifier Letters: U+02B0 - U+02FF
  • Combining Diacritical Marks: U+0300 - U+036F
  • Greek: U+0370 - U+03FF
  • Cyrillic: U+0400 - U+04FF
  • Armenian: U+0530 - U+058F
  • Hebrew: U+0590 - U+05FF
  • Arabic: U+0600 - U+06FF
  • Devanagari: U+0900 - U+097F
  • Bengali: U+0980 - U+09FF
  • Gurmukhi: U+0A00 - U+0A7F
  • Gujarati: U+0A80 - U+0AFF
  • Oriya: U+0B00 - U+0B7F
  • Tamil: U+0B80 - U+0BFF
  • Telugu: U+0C00 - U+0C7F
  • Kannada: U+0C80 - U+0CFF
  • Malayalam: U+0D00 - U+0D7F
  • Thai: U+0E00 - U+0E7F
  • Lao: U+0E80 - U+0EFF
  • Tibetan: U+0F00 - U+0FBF
  • Georgian: U+10A0 - U+10FF
  • Hangul Jamo: U+1100 - U+11FF
  • Latin Extended Additional: U+1E00 - U+1EFF
  • Greek Extended: U+1F00 - U+1FFF

2000 - 2FFF:  Symbole

  • Allgemeine Satzzeichen: U+2000 - U+206F
  • Hochgestellte und tiefgestellte Zeichen: U+2070 - U+209F
  • Währungssymbole: U+20A0 - U+20CF
  • Kombinationszeichen für Symbole: U+20D0 - U+20FF
  • Buchstabenartige Symbole: U+2100 - U+214F
  • Ziffernformen: U+2150 - U+218F
  • Pfeile: U+2190 - U+21FF
  • Mathematische Operatoren: U+2200 - U+22FF
  • Verschiedenes Technik: U+2300 - U+23FF
  • Bildzeichen (Control Pictures): U+2400 - U+243F
  • OCR-Zeichen (für optische Zeichenerkennung): U+2440 - U+245F
  • Enclosed Alphanumerics: U+2460 - U+24FF
  • Linien: U+2500 - U+257F
  • Block Elements: U+2580 - U+259F
  • Geometrische Formen: U+25A0 - U+25FF
  • Verschiedene Symbole: U+2600 - U+26FF
  • Dingbats: U+2700 - U+27BF

3000 - 33FF: Chinesisch/Japanisch/Koreanisch (CJK) - verschiedenes

  • CJK-Symbole und Satzzeichen: U+3000 - U+303F
  • Hiragana: U+3040 - U+309F
  • Katakana: U+30A0 - U+30FF
  • Bopomofo: U+3100 - U+312F
  • Hangul Compatibility Jamo: U+3130 - U+318F
  • Kanbun: U+3190 - U+319F
  • Enclosed CJK Letters and Months: U+3200 - U+32FF
  • CJK Compatibility: U+3300 - U+33FF

4E00 - 9FFF: CJK-Ideographen

AC00 - D7A3: Hangul

D800 - DFFF: Surrogates

Dieser Bereich wird zukünftig mit bislang nicht kodierten Schriftzeichen aus toten Sprachen bzw. zusätzlichen Kanji-Zeichen aus dem Chinesischen/Japanischen/Koreanischen belegt, wobei durch Kombination von 2 16-bit-Werten ein Zeichenraum von 1 Million Zeichen bereitgestellt wird.

E000 - F8FF: Private use

Hier kann sich jeder in Abstimmung mit dem Unicode-Konsortium seine eigenen Zeichen definieren.

F900 - FFFF: Kompatibilitäts- und Sonderzeichen

  • CJK Compatibility Ideographs: U+F900 - U+FAFF
  • Alphabetic Presentation Forms: U+FB00 - U+FB4F
  • Arabic Presentation Forms-A: U+FB50 - U+FDFF
  • Combining Half Marks: U+FE20 - U+FE2F
  • CJK Compatibility Forms: U+FE30 - U+FE4F
  • Small Form Variants: U+FE50 - U+FE6F
  • Arabic Presentation Forms-B: U+FE70 - U+FEFF
  • Halfwidth and Fullwidth Forms: U+FF00 - U+FFEF
  • Sonderzeichen: U+FEFF, U+FFF0 - U+FFFF



InvitationWare

  • Invitation (Englisch): Einladung
  • Invitation for tender: Ausschreibung

Die Informationen auf www.transcom.de sind InvitationWare: Einerseits sind Sie eingeladen, sie zu nutzen. Andererseits, wenn die Informationen auf diesen Seiten Ihnen geholfen haben oder die Tipps und Programme für Sie nützlich sind, dann erinnern Sie sich doch an Transcom, wenn Sie mal wieder einen Auftrag in einem unserer (Link intern) Fachgebiete zu vergeben haben — und senden uns eine Einladung zum Angebot. (Link intern) Rufen Sie uns an oder senden uns eine E-Mail.

» Transcom gehört zum Verbund der media offices