以单字节、双字节或四字节编码
代替GB18030—2005《信息技术 中文编码字符集》
参考国家标准公告服务平台 标准号:GB 18030-2022
1. 字汇
1.1 单字节部分
单字节部分收录了GB/T11383—1989的0x00~0x7F全部128个字符
1.2 双字节部分
双字节部分收录了GB/T2312—1980中的全部图形字符、GB/T13000中的CJK统一汉字以及部分图形字符。
1.3 四字节部分
四字节部分收录了上述双字节字符之外的 GB/T13000中的66个CJK统一汉字(9FA6~9FEF,不包括9FB4~9FBB的8个字符)、CJK统一汉字扩充 A、CJK统一汉字扩充B、CJK统一汉字扩充C、CJK统一汉字扩充D、CJK统一汉字扩充E、CJK统一汉字扩充F和已经在GB/T13000中编码的少数民族文字的字符。
2. 结构
标识0x采用十六进制标识,未标识采用十进制.
- 单字节部分采用GB/T11383—1989的编码结构,使用0x00~0x7F码位。
- 双字节部分采用两个八位二进制位串表示一个字符,其首字节码位从0x81~0xFE,尾字节码位分别是0x40~0x7E和0x80~0xFE。
- 四字节部分采用GB/T11383—1989未采用的0x30~0x39作为对双字节编码扩充的后缀,编码范围为0x81308130~0xFE39FE39。四字节字符的第一个字节编码范围为0x81~0xFE;第二个字节编码范围为0x30~0x39;第三个字节编码范围为0x81~0xFE;第四个字节编码范围为0x30~0x39。
3. 码位分配
3.1 单字节部分的码位分配
单字节部分的码位按照GB/T11383—1989的规则分配。单字节码位分配见图
3.2 双字节部分的码位分配
双字节部分的码位安排分为0x8140~0xFE7E和0x8180~0xFEFE两部分,共23940个码位
3.3 四字节部分的码位分配
四字节部分收录了汉字和部分少数民族文字。
4. 实现的级别
规定三个实现级别。符合相应实现级别的系统软件产品,应提供相应实现级别范围内全部
字符的输入输出功能。
4.1 实现级别1
实现级别1支持本文件的单字节编码部分、双字节编码部分和四字节编码部分的CJK 统一汉字
(即0x82358F33~0x82359636)和CJK 统一汉字扩充A(即0x8139EE39~0x82358738)。
任何本文件适用的产品均应满足实现级别1的要求。
注:根据软件应用需要,实现级别1还可选择支持表3列出的任何一种或多种非汉字文种。
4.2 实现级别2
实现级别2包含实现级别1。此外,实现级别2还支持《通用规范汉字表》中的没有包含在实现级
别1之内的编码汉字。
系统软件及支撑软件,应满足实现级别2的要求。
注:系统软件及支撑软件包括但不限于操作系统、数据库管理系统、中间件(软件产品分类的信息见GB/T36475)。
4.3 实现级别3
实现级别3包含实现级别2。此外,实现级别3还支持本文件规定的全部汉字及表3中的康熙
部首
用于政务服务和公共服务的产品应满足实现级别3的要求。
注:政务服务和公共服务行业包括但不限于铁路运输业、道路运输业、水上运输业、航空运输业、多式联运和运输代理业、邮政业、货币金融服务、保险业、土地管理业、卫生、国家机构、社会保障等 (行业分类的信息 见
GB/T4754)。