GB2312

GB2312

GB2312 ist ein Zeichensatz (engl. Coded Character Set) für vereinfachte chinesische Schriftzeichen, der 1980 eingeführt wurde. Er umfasst insgesamt 7.445 Zeichen, davon 6.763 chinesische Schriftzeichen.

Alle Zeichen sind in einer 94×94-Matrix angeordnet[1], somit sind maximal 8.836 Zeichen möglich. Dieses System wird auch von JIS X 0208 und KS X 1001 verwendet.

Der erste Bereich (Zeile 1 bis 9) kodiert Satzzeichen sowie die griechische Schrift, die kyrillische Schrift, japanische Kana, Zhuyin sowie Buchstaben für Pinyin. Die beiden anderen Bereiche enthalten chinesische Schriftzeichen: In Zeile 16 bis 55 sind chinesische Schriftzeichen nach der Pinyin-Transliteration sortiert, die Zeilen 56 bis 87 enthalten chinesische Schriftzeichen nach der Sortierung im Kangxi-Wörterbuch.

Inhaltsverzeichnis

Kodierung

Vom Zeichensatz selbst ist die Kodierung (engl. Character Encoding Scheme) zu unterscheiden.[2]
GB2312 wird normalerweise in Form von EUC-CN verwendet. Dabei sind die beiden Zeichensätze US-ASCII (als 1-Byte-Zeichen) und GB2312 (als 2-Byte-Zeichen) kombiniert. Zur Unterscheidung von den ASCII-Zeichen wird zu den Zeilen- und Spalten-Nummern der GB2312-Zeichen jeweils 160 (0xA0) addiert, so dass Bytes im Bereich 0xA1 bis 0xFF entstehen. Das 1. Byte entspricht dabei der Zeilennummer, das 2. Byte der Spaltennummer.
Im Mailverkehr war auch die 7-Bit-Kodierung HZ üblich.

Weiterentwicklung

1995 wurde GB2312 durch die Spezifikation GBK erweitert, die jedoch nie offizielle Norm wurde und somit keine GB-Nummer bekam.[3] Durch die Verwendung unter Windows fand sie jedoch große Verbreitung.
2000 wurde GB2312 offiziell von GB18030 abgelöst, wird jedoch weiterhin häufig verwendet.

Verwendung unter Windows

Unter Windows ist GB2312 in der EUC-CN-Kodierung als Codepage 20936 verfügbar, wenn die Erweiterungsoption "Dateien für ostasiatische Sprachen" installiert ist. An einigen Stellen wird unter Windows jedoch die Codepage 936 fälschlicherweise als GB2312 bezeichnet. In Wirklichkeit ist Codepage 936 eine Implementierung von GBK. Im Dialog "Dateikonvertierung" von Word 2003 wird Codepage 936 als "Chinesisch vereinfacht (GB2312)" und Codepage 20936 als "Chinesisch vereinfacht (GB2312-80)" zur Auswahl angeboten.

Referenzen

  1. Ken Lunde: CJKV Information Processing. O'Reilly, 1999, ISBN 1-56592-224-7 (1. Aufl.) bzw. ISBN 0-596-51447-6 (2. Aufl. 2009), App. E
  2. RFC 2978
  3. Liste der GB-Normen im engl. Wikipedia

Weblinks

  • Zeichentabelle GB2312 bei O'Reilly oder bei C. Wittern, Kyoto (Anmerkung: Zeile 10 und 11 dieser Darstellung enthalten die halbbreiten Varianten der ASCII-Zeichen (aus Zeile 3) und der für Pinyin verwendeten lateinischen Sonderzeichen (aus Zeile 8). Diese Inhalte sind nachträgliche Ergänzungen.)
  • Zeichentabelle in der Form von EUC-CN (engl.) bei Ngai Kim Hoong

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • GB2312 — зарегистрированное интернет имя кодировки, распространённой в Китайской Народной Республике, в которой используется китайское письмо. GB является сокращением от Guojia Biaozhun (国家标准, «национальный стандарт»). GB2312 (1980) была вытеснена… …   Википедия

  • GB 2312 — GB2312 is the registered internet name for a key official character set of the People s Republic of China, used for simplified Chinese characters. GB abbreviates Guojia Biaozhun (国家标准), which means national standard in Chinese.GB2312 (1980) has… …   Wikipedia

  • GBK — is an extension of the GB2312 character set for simplified Chinese characters, used in the People s Republic of China. GB stands for National Standard , while K stands for Extension . GBK not only extended the old standard GB2312 with Traditional …   Wikipedia

  • Extended Unix Code — (EUC) is a multibyte character encoding system used primarily for Japanese, Korean, and simplified Chinese.The structure of EUC is based on the ISO 2022 standard, which specifies a way to represent character sets containing a maximum of 94… …   Wikipedia

  • Codepage 936 — Windows Codepages 874 Thai 932 Japanisch 936 Vereinfachtes Chinesisch 949 Koreanisch 950 Traditionelles Chinesisch 1250 Mitteleuropäisch 1251 Kyrillisch …   Deutsch Wikipedia

  • GB 18030 — GB18030 is the registered Internet name for the official character set of the People s Republic of China (PRC) superseding GB2312. This character set is formally called Chinese National Standard GB 18030 2005: Information technology Chinese coded …   Wikipedia

  • 18030 — Unicode Kodierungen UTF 7 UTF 8 CESU 8 UTF 16 UTF 32 UTF EBCDIC SCSU Punycode GB 18030 Techniken BOM …   Deutsch Wikipedia

  • Chinesische Zeichenkodierung — Chinesische Zeichenkodierungen (chinesisch 漢字編碼方法 / 汉字编码方法 Hànzì biānmǎ fāngfǎ) ordnen den chinesischen Schriftzeichen Bytefolgen zur Bearbeitung und Speicherung im Computer zu. Alle chinesischen Zeichenkodierungen enthalten… …   Deutsch Wikipedia

  • GB18030 — Unicode Kodierungen UTF 7 UTF 8 CESU 8 UTF 16 UTF 32 UTF EBCDIC SCSU Punycode GB 18030 Techniken BOM …   Deutsch Wikipedia

  • GBK — Windows Codepages 874  Thai 932  Japanisch 936  Vereinfachtes Chinesisch 949  Koreanisch 950  Traditionelles Chinesisch 1250  Mitteleuropäisch 1251  Kyrillisch 1252 …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”