Druckansicht der Seite "Unicode: Ein paar Anmerkungen"

Website der Firma Transcom, Deutschland
Pfad zu dieser Seite » Home  > Tipps + Tricks  > Redaktion  > Unicode-Fonts und -Codierung
URL dieser Seite www.transcom.de/transcom/de/tipps-tricks/redaktion/2001_unicode.htm
 
Ihre Optionen Zum Ausdrucken benutzen Sie bitte die Druckfunktion Ihres Browsers.
(Zurück) zur Webansicht dieser Seite  
 

Unicode: Ein paar Anmerkungen

Die folgenden Informationen sind ein Excerpt aus dem Artikel (Link extern) "Demystifying Unicode" von Andrea Vine.

Für ausführliche Informationen siehe auch (Link extern) www.unicode.org.

Für die eigene Erstellung einer Unicode-Zeichensatztabelle siehe die Seite (Link intern) Windows-Zeichensatztabelle für ANSI und Unicode.

Unicode versus ISO 10646

ISO 10646 ist ein Zeichensatz, der Schriftzeichen binären Codenummern zuordnet. Unicode hingegen ordnet den 2- bzw. 4-Byte-Code denselben Schriftzeichen zu, ergänzt die Definition aber um Zeicheneigenschaften, Implementationsregeln und Hinweise. Unicode ist eine private Organisation verschiedener kommerzieller Unternehmen, akademischer Einrichtungen und Anwendergruppen. ISO (International Standards Organisation, eine Unterorganisation der UNO) und Unicode arbeiten seit 1991 zusammen, um Diskrepanzen zwischen ISO 10646 und Unicode zu vermeiden.

Unicode-Grundlagen

Unicode basiert auf 10 grundlegenden Prinzipien:

Unicode enthält Zeichen lebender Sprachen, Schriftzeichen toter Sprachen wurden nicht gezielt aufgenommen.

Haben zwei Zeichen unterschiedlicher Sprachen die gleiche optische Präsenz (z.B. Lateinisch "P" und kyrillisch "P", letzteres entspricht dem lateinischen "R"), sind sie als zwei Zeichen kodiert.

Teilimplementationen des Gesamtzeichensatzes sind zulässig.

Die Codefolge eines Textes richtet sich nach der Schreibfolge, nicht der Folge der gerenderten Zeichen.

Mapping

0000 - 1FFF: Allgemeine Schriften

2000 - 2FFF:  Symbole

3000 - 33FF: Chinesisch/Japanisch/Koreanisch (CJK) - verschiedenes

4E00 - 9FFF: CJK-Ideographen

AC00 - D7A3: Hangul

D800 - DFFF: Surrogates

Dieser Bereich wird zukünftig mit bislang nicht kodierten Schriftzeichen aus toten Sprachen bzw. zusätzlichen Kanji-Zeichen aus dem Chinesischen/Japanischen/Koreanischen belegt, wobei durch Kombination von 2 16-bit-Werten ein Zeichenraum von 1 Million Zeichen bereitgestellt wird.

E000 - F8FF: Private use

Hier kann sich jeder in Abstimmung mit dem Unicode-Konsortium seine eigenen Zeichen definieren.

F900 - FFFF: Kompatibilitäts- und Sonderzeichen




InvitationWare

Die Informationen auf www.transcom.de sind InvitationWare: Einerseits sind Sie eingeladen, sie zu nutzen. Andererseits, wenn die Informationen auf diesen Seiten Ihnen geholfen haben oder die Tipps und Programme für Sie nützlich sind, dann erinnern Sie sich doch an Transcom, wenn Sie mal wieder einen Auftrag in einem unserer (Link intern) Fachgebiete zu vergeben haben — und senden uns eine Einladung zum Angebot. (Link intern) Rufen Sie uns an oder senden uns eine E-Mail.

 

» Transcom gehört zum Verbund der media offices (www.mediaoffices.de)