编辑“︁
GB 18030
”︁
跳转到导航
跳转到搜索
Template:Editnotice load/content
警告:
您没有登录。如果您进行任何编辑,您的IP地址会公开展示。如果您
登录
或
创建账号
,您的编辑会以您的用户名署名,此外还有其他益处。
反垃圾检查。
不要
加入这个!
{{NoteTA |G1=IT }} {{Infobox character encoding | name = GB 18030 | mime = GB18030 | alias = [[代码页#中日韩语言代码页|代码页 54936]] | image = GB18030 encoding.svg | caption = GB 18030 字节分配。“半码"(Half codes)指成对使用的四字节部分。 | standard = GB 18030-2022, GB 18030-2005, GB 18030-2000 | lang = 国际,但以[[中文]]为主 | status = | encodes = [[ISO 10646]]([[Unicode]]) | extends = [[EUC-CN]], [[GBK]] | prev = [[GBK]], [[GB 2312|GB2312]] | next = | classification = [[Unicode转换格式]]、[[扩展ASCII]]、{{efn|严格来说不是,因为ASCII字节会出现在GBK拓展二字节部分的后半字}}[[变长编码]]、[[CJK]] |extra = <div style="text-align: left;">{{notelist}}</div> }} '''GB 18030'''(全称《-{zh:信息技术 中文编码字符集;zh-hans:信息技术 中文编码字符集;zh-hant:信息技術 中文編碼字符集}-》)是[[中华人民共和国国家标准]][[简体中文]][[字符集]],由[[中华人民共和国信息产业部]]提出、信息产业部电子工业标准化研究所归口。其[[向后兼容]]并替代[[GB 2312|GB 2312-1980]]、[[GBK]]和[[CP936]]传统编码,并支持[[Unicode]]([[GB 13000]])的所有码位。GB 18030采用变长多[[字节]]编码,每个字可以由1个、2个或4个字节组成。其编码空间庞大,最多可定义161万个字元。由于GB 18030完全支持Unicode,无需动用造字区即可支持[[中日韩统一表意文字]]、中国国内的[[少数民族]]文字以及[[emoji]]等字符。GB 18030在微软[[Microsoft Windows|Windows]]系统中的[[代码页]]为[[代码页#中日韩语言代码页|54936]]。 除编码方法外,GB 18030还包含其他文字和语言以及本标准适用对象的要求。不过,GB 18030不是一个[[汉字规范]],不定义汉字的正式字形;字形由《[[通用规范汉字表]]》进行规范。 == 版本 == 本标准的第一版 '''GB 18030-2000《-{zh:信息技术 信息交换用汉字编码字符集 基本集的扩充;zh-hans:信息技术 信息交换用汉字编码字符集 基本集的扩充;zh-hant:信息技術 信息交換用漢字編碼字符集 基本集的擴充}-》'''由[[中华人民共和国信息产业部]]电子工业标准化研究所、[[北京大学]]计算机技术研究所、[[北大方正集团]]、北京方正新天地信息网络科技有限责任公司、[[四通控股|四通集团公司]]、[[中国科学院软件研究所]]、长城软件公司、[[四通控股|四通利方公司]]、中国软件与技术服务股份有限公司、[[金山软件|金山软件公司]]和[[联想集团]]起草,由[[国家质量技术监督局|国家质-{}-量技术监督局]]于2000年3月17日发布和实施。此版本兼容Unicode 3.0的[[中日韩统一表意文字扩展区A]],共收录27,533个汉字。 本标准的第二版 '''GB 18030-2005《-{zh:信息技术 中文编码字符集;zh-hans:信息技术 中文编码字符集;zh-hant:信息技術 中文編碼字符集}-》'''由[[国家质量监督检验检疫总局]]和[[中国国家标准化管理委员会]]于2005年11月8日发布,并于2006年5月1日实施。此版本兼容Unicode 3.1的[[中日韩统一表意文字扩展区B]],并刊载少数民族包括[[朝鲜文]]、[[蒙古文]](包括[[满文]]、[[托忒文]]、[[锡伯文]]、[[阿礼嘎礼文]])、[[德宏傣文]]、[[藏文]]、[[维吾尔文]]/[[哈萨克文]]/[[柯尔克孜语|柯尔克兹文]]和[[彝文]]的文字。共有70,244个汉字。此标准内的单字节编码部分、双字节编码部分,和四字节编码部分收录的少数中日韩统一表意文字扩展区A的汉字,为强制性标准。其他部分则属于规模性标准。在中华人民共和国境内所有软件产品,都需要支持这个同时包含单字节、双字节和四字节编码的规格。<ref name="CESI-FAQ">{{cite web|url=http://www.cc.cesi.cn/UpLoadFolder/OtherFile/200907/2009070816133686.doc|title=GB18030 符合性问与答|last=CESI|first=|authorlink=China Electronics Standardization Institute|date=2009-07-08|website=CESI Certification Center|publisher=|trans-title=GB18030 compliance FAQ|archive-url=https://web.archive.org/web/20160928145226/http://www.cc.cesi.cn/UpLoadFolder/OtherFile/200907/2009070816133686.doc|archive-date=2016-09-28|access-date=2016-10-12|quote=''Page 4'' 同时达到以下两个要求的产品,为符合GB 18030-2005强制部分的产品:①产品可以正确输入、输出、处理GB 18030-2005强制部分规定的全部汉字字符;②产品可以正确识别GB 18030-2005强制性部分规定的全部汉字字符对应的编码。 [A product compliant with the mandatory part of GB 18030 must be able to correctly a) input, output and process all Chinese characters defined in the mandatory set; b) recognize encodings for characters in the mandatory set.]|dead-url=no}}</ref>{{rp|4}} 本标准的第三版 '''GB 18030-2022《-{zh:信息技术 中文编码字符集;zh-hans:信息技术 中文编码字符集;zh-hant:信息技術 中文編碼字符集}-》'''由[[国家市场监督管理总局]]和中国国家标准化管理委员会于2022年7月19日发布,并于2023年8月1日实施<ref>{{Cite web|date=2022-08-12|title=GB 18030—2022《信息技术 中文编码字符集》发布并出版|url=http://mp.weixin.qq.com/s?__biz=MzI1NjAxODY4Mw==&mid=2652704588&idx=2&sn=ff631478b7089a17aaa9c2cb70882b5f&chksm=f1c4bed8c6b337cebf18fd85d8b7e754acdb818e0060a6f5a6acb355f118ea2e19b0450d1b21#rd|url-status=live|archive-url=https://web.archive.org/web/20240128104757/https://mp.weixin.qq.com/s?__biz=MzI1NjAxODY4Mw==&mid=2652704588&idx=2&sn=ff631478b7089a17aaa9c2cb70882b5f&chksm=f1c4bed8c6b337cebf18fd85d8b7e754acdb818e0060a6f5a6acb355f118ea2e19b0450d1b21&scene=27|archive-date=2024-01-28|access-date=2024-01-28|website=微信公众平台|language=zh}}</ref>。此版本兼容到Unicode 11为止的[[中日韩统一表意文字扩展区C]]、[[中日韩统一表意文字扩展区D|D]]、[[中日韩统一表意文字扩展区E|E]]和[[中日韩统一表意文字扩展区F|F]],并新增[[康熙部首]],以及[[柏格理苗文|滇东北苗文]]、[[老傈僳文|傈僳文]]、[[西双版纳新傣文]]、[[老傣仂文|西双版纳老傣文]]、[[德宏傣文]]等少数民族文字以及[[蒙古文補充|蒙古文 BIRGA 符号]],共收录汉字87,887个和汉字部首228个,比上一版增加录入了1.7万余个生僻汉字。此版本在保留总体结构的基础上,从条文强制改为全文强制,但增加了“实现的级别”一章,定义了三个实现级别: * 级别1:支持中日韩统一表意文字和中日韩统一表意文字扩展区A的汉字(所有具备[[中文信息处理]]和交换功能的产品均应满足此级别。与上一版的“部分强制”相比,实际要求“增加四字节编码部分的CJK统一汉字”的 66 字。) * 级别2:在级别1的基础上额外支持资料性附录E中明确的《[[通用规范汉字表]]》中没有包含在级别1之内的 8105 个汉字([[操作系统]]、[[数据库管理系统]]、[[中间件]]等[[系统软件]]和支撑软件均应满足此级别。) * 级别3:支持GB 18030-2022中所规定的全部汉字以及[[康熙部首]](GB/T 4754《[[中国产业分类|国民经济行业分类]]》中任何用于政务服务和[[公共服务]]的信息技术产品和[[信息系统]]应均满足此级别。) ==Unicode支持== {| class="wikitable floatright" |+ 不同GB 18030版本中Unicode码位的映射更动 ! rowspan=2 | GB 字节串 !! colspan=2 | Unicode 码位 |- ! GB 18030-2000 ! GB 18030-2005 |- | A8 BC (ḿ)|| style="background:#ccf;"|{{code|U+E7C7}}||{{unichar|1E3F}} |- | 81 35 F4 37||{{unichar|1E3F}}|| style="background:#ccf;"|{{code|U+E7C7}} |} GB 18030在其标准中以码-{表}-形式定义了除去{{tsl|en|surrogate pair|代理对}}外的全部Unicode码位的定义。由于GB 18030基本上是绕开已分配的码点去指定需要对应的Unicode,其变换和[[UTF-8]]相比要复杂得多。在日常实现上,常常会直接使用一个偏移量表<ref>{{cite web|title=Encoding Standard # gb18030-index|url=https://encoding.spec.whatwg.org/#index-gb18030-ranges-pointer|website=WHATWG|accessdate=2016-09-11|archive-date=2015-02-04|archive-url=https://web.archive.org/web/20150204174315/https://encoding.spec.whatwg.org/#index-gb18030-ranges-pointer|dead-url=yes}}</ref>。 GB 18030-2005与GB 18030-2000、GBK相比,去除了很多原来映射在[[私人使用区|PUA]]中的编码;后来剩余的24个PUA码位也在Unicode 4.1中加上。 在GB 18030-2022中,剩余的24个PUA码位已经被去除或更改对应,所有有意义字符都已经映射到正式的 Unicode 码位上。<ref name="gb18030-2022-kenlunde">{{cite web |last1=Lunde |first1=Dr Ken |title=The GB 18030-2022 Standard |url=https://ken-lunde.medium.com/the-gb-18030-2022-standard-3d0ebaeb4132 |website=Medium |access-date=7 August 2022 |language=en |date=4 August 2022 |archive-date=2022-08-07 |archive-url=https://web.archive.org/web/20220807153333/https://ken-lunde.medium.com/the-gb-18030-2022-standard-3d0ebaeb4132 |dead-url=no }}</ref> {{anchor|PUA}} {| class="wikitable mw-collapsible mw-collapsed" style="min-width:8rem" |+ 国标码<wbr/>码-{表}-中<wbr/>私有区<wbr/>码位<wbr/>的演变 ! rowspan=2 | GB 字节串 !! colspan=4 | Unicode 码位 {{ref label|GB18030-PUA-blue|a}} |- ! GBK 1.0<ref>{{cite web|title=Group:GBK外字|url=http://zht.glyphwiki.org/wiki/Group:GBK%E5%A4%96%E5%AD%97|website=GlyphWiki|accessdate=11 September 2016|archive-date=2019-02-16|archive-url=https://web.archive.org/web/20190216043525/http://zht.glyphwiki.org/wiki/Group:GBK%E5%A4%96%E5%AD%97|dead-url=no}}</ref> ! GB 18030-2005 !! Unicode 4.1 !! GB 18030-2022<ref name="gb18030-2022-kenlunde"/> |- |A6 D9<ref name="cjkv-info-proc">{{cite book|last1=Lunde|first1=Ken|title=CJKV Information Processing|date=December 2008|publisher=O'Reilly Media, Inc|isbn=978-0-596-51447-1|url=https://books.google.com/books?id=SA92uQqTB-AC|access-date=11 September 2016}}</ref>{{rp|108}}|||| style="background:#ccf;"|<code>U+E78D</code> | colspan="2" style="text-align:center;"|{{unichar|FE10}} |- |A6 DA|||| style="background:#ccf;"|<code>U+E78E</code>|| colspan="2" style="text-align:center;"|{{unichar|FE12}} |- |A6 DB|||| style="background:#ccf;"|<code>U+E78F</code>|| colspan="2" style="text-align:center;"|{{unichar|FE11}} |- |A6 DC|||| style="background:#ccf;"|<code>U+E790</code>|| colspan="2" style="text-align:center;"|{{unichar|FE13}} |- |A6 DD|||| style="background:#ccf;"|<code>U+E791</code>|| colspan="2" style="text-align:center;"|{{unichar|FE14}} |- |A6 DE|||| style="background:#ccf;"|<code>U+E792</code>|| colspan="2" style="text-align:center;"|{{unichar|FE15}} |- |A6 DF|||| style="background:#ccf;"|<code>U+E793</code>|| colspan="2" style="text-align:center;"|{{unichar|FE16}} |- |A6 EC|||| style="background:#ccf;"|<code>U+E794</code>|| colspan="2" style="text-align:center;"|{{unichar|FE17}} |- |A6 ED|||| style="background:#ccf;"|<code>U+E795</code>|| colspan="2" style="text-align:center;"|{{unichar|FE18}} |- |A6 F3|||| style="background:#ccf;"|<code>U+E796</code>|| colspan="2" style="text-align:center;"|{{unichar|FE19}} |- |A8 BC|| style="background:#ccf;"|<code>U+E7C7</code>|| colspan="3" style="text-align:center;"|{{unichar|1E3F}} |- |A8 BF|| style="background:#ccf;"|<code>U+E7C8</code>|| colspan="3" style="text-align:center;"|{{unichar|01F9}} |- |A9 89|| style="background:#ccf;"|<code>U+E7E7</code>|| colspan="3" style="text-align:center;"|{{unichar|303E}} |- |A9 8A|| style="background:#ccf;"|<code>U+E7E8</code>|| colspan="3" style="text-align:center;"|{{unichar|2FF0}} |- |A9 8B|| style="background:#ccf;"|<code>U+E7E9</code>|| colspan="3" style="text-align:center;"|{{unichar|2FF1}} |- |A9 8C|| style="background:#ccf;"|<code>U+E7EA</code>|| colspan="3" style="text-align:center;"|{{unichar|2FF2}} |- |A9 8D|| style="background:#ccf;"|<code>U+E7EB</code>|| colspan="3" style="text-align:center;"|{{unichar|2FF3}} |- |A9 8E|| style="background:#ccf;"|<code>U+E7EC</code>|| colspan="3" style="text-align:center;"|{{unichar|2FF4}} |- |A9 8F|| style="background:#ccf;"|<code>U+E7ED</code>|| colspan="3" style="text-align:center;"|{{unichar|2FF5}} |- |A9 90|| style="background:#ccf;"|<code>U+E7EE</code>|| colspan="3" style="text-align:center;"|{{unichar|2FF6}} |- |A9 91|| style="background:#ccf;"|<code>U+E7EF</code>|| colspan="3" style="text-align:center;"|{{unichar|2FF7}} |- |A9 92|| style="background:#ccf;"|<code>U+E7F0</code>|| colspan="3" style="text-align:center;"|{{unichar|2FF8}} |- |A9 93|| style="background:#ccf;"|<code>U+E7F1</code>|| colspan="3" style="text-align:center;"|{{unichar|2FF9}} |- |A9 94<ref name="cjkv-info-proc"/>{{rp|173}}|| style="background:#ccf;"|<code>U+E7F2</code>|| colspan="3" style="text-align:center;"|{{unichar|2FFA}} |- |A9 95|| style="background:#ccf;"|<code>U+E7F3</code>|| colspan="3" style="text-align:center;"|{{unichar|2FFB}} |- |FE 50|| style="background:#ccf;"|<code>U+E815</code>|| colspan="3" style="text-align:center;"|{{unichar|2E81}} |- |FE 51|| colspan="2" style="text-align:center; background:#ccf;"|<code>U+E816</code>||{{unichar|20087}}{{ref label|GB18030-2022-1|b}}||style="background:#ccf;"|<code>U+E816</code> |- |FE 52|| colspan="2" style="text-align:center; background:#ccf;"|<code>U+E817</code>||{{unichar|20089}}{{ref label|GB18030-2022-2|c}}||style="background:#ccf;"|<code>U+E817</code> |- |FE 53|| colspan="2" style="text-align:center; background:#ccf;"|<code>U+E818</code>||{{unichar|200CC}}{{ref label|GB18030-2022-3|d}}||style="background:#ccf;"|<code>U+E818</code> |- |FE 54|| style="background:#ccf;"|<code>U+E819</code>|| colspan="3" style="text-align:center;"|{{unichar|2E84}} |- |FE 55|| style="background:#ccf;"|<code>U+E81A</code>|| colspan="3" style="text-align:center;"|{{unichar|3473}} |- |FE 56|| style="background:#ccf;"|<code>U+E81B</code>|| colspan="3" style="text-align:center;"|{{unichar|3447}} |- |FE 57|| style="background:#ccf;"|<code>U+E81C</code>|| colspan="3" style="text-align:center;"|{{unichar|2E88}} |- |FE 58|| style="background:#ccf;"|<code>U+E81D</code>|| colspan="3" style="text-align:center;"|{{unichar|2E8B}} |- |FE 59|| colspan="2" style="text-align:center; background:#ccf;"|<code>U+E81E</code>|| colspan="2" style="text-align:center;"|{{unichar|9FB4}} |- |FE 5A|| style="background:#ccf;"|<code>U+E81F</code>|| colspan="3" style="text-align:center;"|{{unichar|359E}} |- |FE 5B|| style="background:#ccf;"|<code>U+E820</code>|| colspan="3" style="text-align:center;"|{{unichar|361A}} |- |FE 5C|| style="background:#ccf;"|<code>U+E821</code>|| colspan="3" style="text-align:center;"|{{unichar|360E}} |- |FE 5D|| style="background:#ccf;"|<code>U+E822</code>|| colspan="3" style="text-align:center;"|{{unichar|2E8C}} |- |FE 5E|| style="background:#ccf;"|<code>U+E823</code>|| colspan="3" style="text-align:center;"|{{unichar|2E97}} |- |FE 5F|| style="background:#ccf;"|<code>U+E824</code>|| colspan="3" style="text-align:center;"|{{unichar|396E}} |- |FE 60|| style="background:#ccf;"|<code>U+E825</code>|| colspan="3" style="text-align:center;"|{{unichar|3918}} |- |FE 61|| colspan="2" style="text-align:center; background:#ccf;"|<code>U+E826</code>|| colspan="2" style="text-align:center;"|{{unichar|9FB5}} |- |FE 62|| style="background:#ccf;"|<code>U+E827</code>|| colspan="3" style="text-align:center;"|{{unichar|39CF}} |- |FE 63|| style="background:#ccf;"|<code>U+E828</code>|| colspan="3" style="text-align:center;"|{{unichar|39DF}} |- |FE 64|| style="background:#ccf;"|<code>U+E829</code>|| colspan="3" style="text-align:center;"|{{unichar|3A73}} |- |FE 65|| style="background:#ccf;"|<code>U+E82A</code>|| colspan="3" style="text-align:center;"|{{unichar|39D0}} |- |FE 66|| colspan="2" style="text-align:center; background:#ccf;"|<code>U+E82B</code>|| colspan="2" style="text-align:center;"|{{unichar|9FB6}} |- |FE 67|| colspan="2" style="text-align:center; background:#ccf;"|<code>U+E82C</code>|| colspan="2" style="text-align:center;"|{{unichar|9FB7}} |- |FE 68|| style="background:#ccf;"|<code>U+E82D</code>|| colspan="3" style="text-align:center;"|{{unichar|3B4E}} |- |FE 69|| style="background:#ccf;"|<code>U+E82E</code>|| colspan="3" style="text-align:center;"|{{unichar|3C6E}} |- |FE 6A|| style="background:#ccf;"|<code>U+E82F</code>|| colspan="3" style="text-align:center;"|{{unichar|3CE0}} |- |FE 6B|| style="background:#ccf;"|<code>U+E830</code>|| colspan="3" style="text-align:center;"|{{unichar|2EA7}} |- |FE 6C|| colspan="2" style="text-align:center; background:#ccf;"|<code>U+E831</code>||{{unichar|215D7}}{{ref label|GB18030-2022-4|e}}||style="background:#ccf;"|<code>U+E831</code> |- |FE 6D|| colspan="2" style="text-align:center; background:#ccf;"|<code>U+E832</code>|| colspan="2" style="text-align:center;"|{{unichar|9FB8}} |- |FE 6E|| style="background:#ccf;"|<code>U+E833</code>|| colspan="3" style="text-align:center;"|{{unichar|2EAA}} |- |FE 6F|| style="background:#ccf;"|<code>U+E834</code>|| colspan="3" style="text-align:center;"|{{unichar|4056}} |- |FE 70|| style="background:#ccf;"|<code>U+E835</code>|| colspan="3" style="text-align:center;"|{{unichar|415F}} |- |FE 71|| style="background:#ccf;"|<code>U+E836</code>|| colspan="3" style="text-align:center;"|{{unichar|2EAE}} |- |FE 72|| style="background:#ccf;"|<code>U+E837</code>|| colspan="3" style="text-align:center;"|{{unichar|4337}} |- |FE 73|| style="background:#ccf;"|<code>U+E838</code>|| colspan="3" style="text-align:center;"|{{unichar|2EB3}} |- |FE 74|| style="background:#ccf;"|<code>U+E839</code>|| colspan="3" style="text-align:center;"|{{unichar|2EB6}} |- |FE 75|| style="background:#ccf;"|<code>U+E83A</code>|| colspan="3" style="text-align:center;"|{{unichar|2EB7}} |- |FE 76|| colspan="2" style="text-align:center; background:#ccf;"|<code>U+E83B</code>||{{unichar|2298F}}{{ref label|GB18030-2022-5|f}}||style="background:#ccf;"|<code>U+E83B</code> |- |FE 77|| style="background:#ccf;"|<code>U+E83C</code>|| colspan="3" style="text-align:center;"|{{unichar|43B1}} |- |FE 78|| style="background:#ccf;"|<code>U+E83D</code>|| colspan="3" style="text-align:center;"|{{unichar|43AC}} |- |FE 79|| style="background:#ccf;"|<code>U+E83E</code>|| colspan="3" style="text-align:center;"|{{unichar|2EBB}} |- |FE 7A|| style="background:#ccf;"|<code>U+E83F</code>|| colspan="3" style="text-align:center;"|{{unichar|43DD}} |- |FE 7B|| style="background:#ccf;"|<code>U+E840</code>|| colspan="3" style="text-align:center;"|{{unichar|44D6}} |- |FE 7C|| style="background:#ccf;"|<code>U+E841</code>|| colspan="3" style="text-align:center;"|{{unichar|4661}} |- |FE 7D|| style="background:#ccf;"|<code>U+E842</code>|| colspan="3" style="text-align:center;"|{{unichar|464C}} |- |FE 7E|| colspan="2" style="text-align:center; background:#ccf;"|<code>U+E843</code>|| colspan="2" style="text-align:center;"|{{unichar|9FB9}} |- |FE 80|| style="background:#ccf;"|<code>U+E844</code>|| colspan="3" style="text-align:center;"|{{unichar|4723}} |- |FE 81|| style="background:#ccf;"|<code>U+E845</code>|| colspan="3" style="text-align:center;"|{{unichar|4729}} |- |FE 82|| style="background:#ccf;"|<code>U+E846</code>|| colspan="3" style="text-align:center;"|{{unichar|477C}} |- |FE 83|| style="background:#ccf;"|<code>U+E847</code>|| colspan="3" style="text-align:center;"|{{unichar|478D}} |- |FE 84|| style="background:#ccf;"|<code>U+E848</code>|| colspan="3" style="text-align:center;"|{{unichar|2ECA}} |- |FE 85|| style="background:#ccf;"|<code>U+E849</code>|| colspan="3" style="text-align:center;"|{{unichar|4947}} |- |FE 86|| style="background:#ccf;"|<code>U+E84A</code>|| colspan="3" style="text-align:center;"|{{unichar|497A}} |- |FE 87|| style="background:#ccf;"|<code>U+E84B</code>|| colspan="3" style="text-align:center;"|{{unichar|497D}} |- |FE 88|| style="background:#ccf;"|<code>U+E84C</code>|| colspan="3" style="text-align:center;"|{{unichar|4982}} |- |FE 89|| style="background:#ccf;"|<code>U+E84D</code>|| colspan="3" style="text-align:center;"|{{unichar|4983}} |- |FE 8A|| style="background:#ccf;"|<code>U+E84E</code>|| colspan="3" style="text-align:center;"|{{unichar|4985}} |- |FE 8B|| style="background:#ccf;"|<code>U+E84F</code>|| colspan="3" style="text-align:center;"|{{unichar|4986}} |- |FE 8C|| style="background:#ccf;"|<code>U+E850</code>|| colspan="3" style="text-align:center;"|{{unichar|499F}} |- |FE 8D|| style="background:#ccf;"|<code>U+E851</code>|| colspan="3" style="text-align:center;"|{{unichar|499B}} |- |FE 8E|| style="background:#ccf;"|<code>U+E852</code>|| colspan="3" style="text-align:center;"|{{unichar|49B7}} |- |FE 8F|| style="background:#ccf;"|<code>U+E853</code>|| colspan="3" style="text-align:center;"|{{unichar|49B6}} |- |FE 90|| colspan="2" style="text-align:center; background:#ccf;"|<code>U+E854</code>|| colspan="2" style="text-align:center;"|{{unichar|9FBA}} |- |FE 91|| colspan="2" style="text-align:center; background:#ccf;"|<code>U+E855</code>||{{unichar|241FE}}{{ref label|GB18030-2022-6|g}}||style="background:#ccf;"|<code>U+E855</code> |- |FE 92|| style="background:#ccf;"|<code>U+E856</code>|| colspan="3" style="text-align:center;"|{{unichar|4CA3}} |- |FE 93|| style="background:#ccf;"|<code>U+E857</code>|| colspan="3" style="text-align:center;"|{{unichar|4C9F}} |- |FE 94|| style="background:#ccf;"|<code>U+E858</code>|| colspan="3" style="text-align:center;"|{{unichar|4CA0}} |- |FE 95|| style="background:#ccf;"|<code>U+E859</code>|| colspan="3" style="text-align:center;"|{{unichar|4CA1}} |- |FE 96|| style="background:#ccf;"|<code>U+E85A</code>|| colspan="3" style="text-align:center;"|{{unichar|4C77}} |- |FE 97|| style="background:#ccf;"|<code>U+E85B</code>|| colspan="3" style="text-align:center;"|{{unichar|4CA2}} |- |FE 98|| style="background:#ccf;"|<code>U+E85C</code>|| colspan="3" style="text-align:center;"|{{unichar|4D13}} |- |FE 99|| style="background:#ccf;"|<code>U+E85D</code>|| colspan="3" style="text-align:center;"|{{unichar|4D14}} |- |FE 9A|| style="background:#ccf;"|<code>U+E85E</code>|| colspan="3" style="text-align:center;"|{{unichar|4D15}} |- |FE 9B|| style="background:#ccf;"|<code>U+E85F</code>|| colspan="3" style="text-align:center;"|{{unichar|4D16}} |- |FE 9C|| style="background:#ccf;"|<code>U+E860</code>|| colspan="3" style="text-align:center;"|{{unichar|4D17}} |- |FE 9D|| style="background:#ccf;"|<code>U+E861</code>|| colspan="3" style="text-align:center;"|{{unichar|4D18}} |- |FE 9E|| style="background:#ccf;"|<code>U+E862</code>|| colspan="3" style="text-align:center;"|{{unichar|4D19}} |- |FE 9F|| style="background:#ccf;"|<code>U+E863</code>|| colspan="3" style="text-align:center;"|{{unichar|4DAE}} |- |FE A0|| colspan="2" style="text-align:center; background:#ccf;"|<code>U+E864</code>|| colspan="2" style="text-align:center;"|{{unichar|9FBB}} |- | colspan="5" style="background:#F8F8F8;font-size:small;text-align:left" | '''备注''' :a.{{note|GB18030-PUA-blue}}<span style="background:#ccf; padding:0 0.2em;">蓝色</span>代表私用区码位 :b.{{note|GB18030-2022-1}}GB 18030-2022将{{unichar|20087}}映射至<code>0x95329031</code> :c.{{note|GB18030-2022-2}}GB 18030-2022将{{unichar|20089}}映射至<code>0x95329033</code> :d.{{note|GB18030-2022-3}}GB 18030-2022将{{unichar|200CC}}映射至<code>0x95329730</code> :e.{{note|GB18030-2022-4}}GB 18030-2022将{{unichar|215D7}}映射至<code>0x9536B937</code> :f.{{note|GB18030-2022-5}}GB 18030-2022将{{unichar|2298F}}映射至<code>0x9630BA35</code> :g.{{note|GB18030-2022-6}}GB 18030-2022将{{unichar|241FE}}映射至<code>0x9635B630</code> |} == 字节结构 == GB 18030包含三种长度的编码:单字节的[[ASCII]]、双字节的[[GBK]](略带扩展)、以及用于填补所有Unicode码位的四字节UTF区段。GBK双字节部分通过查表定义,而四字节部分则根据之前两个部分没有提到的[[通用字符集]]码位顺序填补。由于和GBK兼容,GB 18030在搜索ASCII字符时也需要使用特别代码进行判断。 {| class="wikitable" |+ GB 18030编码<ref name="gb18030-2005">{{Cite book|url=http://archive.org/details/GB18030-2005|title=GB 18030-2005: Information Technology—Chinese coded character set|last=Standardization Administration of China (SAC)|date=2005-11-18}}</ref>{{rp|3}}<ref name="gb18030-2000">{{Cite book|url=http://archive.org/details/GB18030-2000|title=GB 18030-2000: Information Technology—Chinese coded character set for information interchange — Extension for the basic set|last=Standardization Administration of China (SAC)|date=2000-03-17}}</ref>{{rp|252}}<ref name=ICU>[http://source.icu-project.org/repos/icu/data/trunk/charset/data/xml/gb-18030-2000.xml Authoritative mapping table between GB18030-2000 and Unicode] {{Wayback|url=http://source.icu-project.org/repos/icu/data/trunk/charset/data/xml/gb-18030-2000.xml |date=20070705031603 }}. ICU – International Components for Unicode. 2001-02-21. Accessed 2016-09-04.</ref> |- ! colspan=4 | GB 18030 ! rowspan=2 | [[码位]]数 ! rowspan=2 | Unicode{{efn|包含66个“非字符”}} |- ! 字节1(最高位) !! 字节2 !! 字节3 !! 字节4 |- | {{code|00}} – {{code|7F}} ! colspan=3 | | style="text-align: right" | 128 | {{code|0000}} – {{code|007F}} |- | {{code|80}} ! colspan=3 | | — | 错误{{efn|name=icu-80-glitch|虽然两个版本的GB 18030都认为此码位不正确(指正式发布的,GB 18030-2000的报批稿却同时有单双字节欧元<ref>{{cite web|title=GB 18030-2000报批稿|url=http://www.b-t.asia/chinese/docs/gb18030.pdf|access-date=2017-08-15|archive-url=https://web.archive.org/web/20170815110202/http://www.b-t.asia/chinese/docs/gb18030.pdf|archive-date=2017-08-15|dead-url=yes}}</ref>),但是ICU的定义错误称其为有效码位。出于GBK兼容性考虑,[[網頁超文本應用技術工作小組|WHATWG]]的GBK/GB 18030二合一解码器将此字节视作欧元符号。}} |- | {{code|81}} – {{code|FE}} || {{code|40}} – {{code|FE}} 除去 {{code|7F}}{{efn|参见[[汉字内码扩展规范]]条目细分。}} ! colspan=2 | | style="text-align: right" | {{val|23940}} | rowspan=2 | {{code|0080}} – {{code|FFFF}} 除去 {{code|D800}} – {{code|DFFF}}{{efn|上一行的码位使用二字节GBK编码,下一行的码位按照顺序以四字节编码补全覆盖面。此段最后一个实际用上的编码为U+FFFF的{{code|84 31 A4 39}}(2005版239页),不过划区时画到了{{code|84 39 FE 39}}。}} |- | {{code|81}} – {{code|84}} | rowspan=3 | {{code|30}} – {{code|39}} | rowspan=3 | {{code|81}} – {{code|FE}} | rowspan=3 | {{code|30}} – {{code|39}} | style="text-align: right" | {{val|39420}} |- | {{code|85}} | — ({{val|12600}}) | (未来字符拓展) |- | {{code|86}} – {{code|8F}} | — ({{val|126000}}) | (未来汉字拓展) |- | colspan=4 | 无 | — | {{code|D800}} – {{code|DFFF}}{{efn|这些为{{tsl|en|surrogate code point|代理对字符}},在[[UTF-16]]之外没有实际意义。}} |- | {{code|90}} – {{code|E3}} | rowspan=3 | {{code|30}} – {{code|39}} | rowspan=3 | {{code|81}} – {{code|FE}} | rowspan=3 | {{code|30}} – {{code|39}} | style="text-align: right" | {{val|1048576}} | <code>1 0000</code> – <code>10 FFFF</code> |- | {{code|E4}} – {{code|FC}} | — ({{val|315000}}) | (未来标准拓展) |- | {{code|FD}} – {{code|FE}} | — ({{val|25200}}) | (用户造字区域) |- | {{code|FF}} ! colspan=3 | | — | 错误 |- ! colspan=4 style="text-align: right" | 总计 ! style="text-align: right" | {{val|1112064}} ! |} 一、二字节区段基本就是[[GBK]]编码,另外加上了专门的欧元字符、竖排版本的标点符号,以及造字区对Unicode造字区的对应。四字节区段可以视作两段形似GBK二字节区段结构的部分,每段的第一字节可以为0x81到0xFE,第二字节为0x30到0x39。由于结构类似,能够安全于GBK的字符串搜索程序对于GB 18030来说也基本安全(正如{{tsl|en|byte-oriented|基于字节}}的搜索程序对于[[EUC]]、[[UTF-8]]也基本安全一般。) 四字节区段总共可以表达1,587,600(126×10×126×10)种字符,足以覆盖[[Unicode]]的1,112,064(17×65536 − 2048个代理对)个有效码位。 由于四字节区段通过填空定义,要写出处理这段转换的程序需要同时知道GBK的覆盖范围,并不简单: U+00DE (Þ) → 81 30 89 37 U+00DF (ß) → 81 30 89 38 U+00E0 (à) → A8 A4 U+00E1 (á) → A8 A2 U+00E2 (â) → 81 30 89 39 U+00E3 (ã) → 81 30 8A 30 [[網頁超文本應用技術工作小組|WHATWG]]和[[万维网联盟|W3C]]的GB 18030实现通过一张“位置偏移表”记录GB 18030四字节区中连续的几块碎片,以便高效处理转换。<ref>{{cite web|title=Encoding Standard # gb18030-index|url=https://encoding.spec.whatwg.org/#index-gb18030-ranges-pointer|website=WHATWG|accessdate=2016-09-24|archive-date=2015-02-04|archive-url=https://web.archive.org/web/20150204174315/https://encoding.spec.whatwg.org/#index-gb18030-ranges-pointer|dead-url=yes}}</ref>ICU<ref name=ICU/>和glibc也都对大块连续的区域使用了类似的策略。 == 参见 == *[[国家标准代码]] *[[GBK]] *[[中文电码]] *[[wikt:附录:中文电码/中国大陆1983|1983年《标准电码本(修订本)》的维基词典页面]] == 注釋 == {{notelist}} == 参考资料 == {{reflist|2}} == 外部連結 == *[http://tech.sina.com.cn/s/2001-07-26/1850.html 新浪网:关于GB18030汉字编码标准集]{{Wayback|url=http://tech.sina.com.cn/s/2001-07-26/1850.html |date=20040217111251 }} *[http://tech.sina.com.cn/s_h/n/55085.shtml 新浪网:电脑汉字不够用 计算机也要“扫盲”]{{Wayback|url=http://tech.sina.com.cn/s_h/n/55085.shtml |date=20040221183017 }} *[http://www.unicode.org/L2/L2006/06394-gb18030-2005.txt Update on GB 18030:2005, Ken Lunde, 2006-11-13]{{Wayback|url=http://www.unicode.org/L2/L2006/06394-gb18030-2005.txt |date=20131224113307 }} *http://source.icu-project.org/repos/icu/data/trunk/charset/data/xml/gb-18030-2000.xml{{Wayback|url=http://source.icu-project.org/repos/icu/data/trunk/charset/data/xml/gb-18030-2000.xml |date=20070705031603 }} *[http://demo.icu-project.org/icu-bin/convexp?conv=gb18030 ICU Converter Explorer: GB18030]{{Wayback|url=http://demo.icu-project.org/icu-bin/convexp?conv=gb18030 |date=20070928023454 }}(英语) *[https://web.archive.org/web/20080410195805/http://www.microsoft.com/globaldev/drintl/columns/015/default.mspx 微软有关GB18030编码的介绍](英语) *[http://support.microsoft.com/default.aspx?scid=kb;en-us;821032 微软:老旧软体可能发生的兼容问題]{{Wayback|url=http://support.microsoft.com/default.aspx?scid=kb;en-us;821032 |date=20060505002924 }}(英语) *[http://www.microsoft.com/china/windows2000/downloads/18030.asp 微软 Win2000 GB18030 支持包]{{Wayback|url=http://www.microsoft.com/china/windows2000/downloads/18030.asp |date=20050116052110 }} *[http://code.web.idv.hk/gb18030/gb18030.php GB18030与Unicode对照表]{{Wayback|url=http://code.web.idv.hk/gb18030/gb18030.php |date=20150228155938 }} {{Ideographic repertoire}} {{中文信息处理}} {{Character encoding}} [[Category:中文信息处理]] [[Category:字符集]] [[Category:中华人民共和国强制性国家标准|18030]]
摘要:
请注意,所有对Local Chinese Wikipedia的贡献均可能会被其他贡献者编辑、修改或删除。如果您不希望您的文字作品被随意编辑,请不要在此提交。
您同时也向我们承诺,您提交的内容为您自己所创作,或是复制自公共领域或类似自由来源(详情请见
Project:著作权
)。
未经许可,请勿提交受著作权保护的作品!
取消
编辑帮助
(在新窗口中打开)
导航菜单
个人工具
未登录
讨论
贡献
创建账号
登录
命名空间
页面
讨论
大陆简体
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
编辑
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息