国家标准《信息技术中文编码字符集GB18030-2022》PDF及CESI国标字体下载方法

系统字体配置、中文显示和输入法问题
回复
头像
yq-ysy
论坛版主
帖子: 4450
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)

国家标准《信息技术中文编码字符集GB18030-2022》PDF及CESI国标字体下载方法

#1

帖子 yq-ysy » 2023-08-04 11:09

在网上搜索某个国家标准下载,一大堆收费的、要金币的、要充值的网站充斥在百度前几页……
好在找到了gov网站可下载,免费快速,赶快收藏共享:

国家标准《信息技术中文编码字符集GB18030-2022》PDF官方下载地址
https://openstd.samr.gov.cn/bzgk/gb/new ... 029B0833D3

中国电子技术标准化研究院(cesi)国标字体——可以从统信UOS的安装包中提取
方法请见: https://forum.ubuntu.org.cn/viewtopic.p ... 5#p3234255
头像
yq-ysy
论坛版主
帖子: 4450
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)

麒麟操作系统通过GB18030-2022最高级认证,openKylin实现新国标系统级全面支持

#2

帖子 yq-ysy » 2023-08-05 17:37

麒麟操作系统通过GB18030-2022最高级认证
消息来源:
http://www.linuxeden.com/a/124584

8月1日,强制性国家标准GB 18030-2022《信息技术 中文编码字符集》正式实施!这一标准适用于具备中文信息处理、交换功能的软硬件产品,设置了三档实现级别,共收录汉字87887个,比上一版增收了1.7万余个生僻汉字。目前,麒麟软件旗下“银河麒麟”、“中标麒麟”两大操作系统品牌,涵盖桌面操作系统、服务器操作系统、嵌入式操作系统等多款产品,都正式通过了GB18030-2022的最高级认证,也就是实现级别3。

《信息技术 中文编码字符集》是中文信息技术领域最重要的基础性标准,对汉字和我国多种少数民族文字统一编码,实施场景丰富,应用范围广泛。该标准2000年首次发布,2005年第一次修订。此次发布的新版标准,是强制性国家标准,不仅收录《通用规范汉字表》全部汉字,同时覆盖我国绝大部分人名、地名用生僻字以及文献、科技等专业领域用字。

作为国产操作系统的领军企业,麒麟软件一直积极贯彻落实国家政策、标准,坚持推动电子信息产业标准化工作,先后主持和参与起草国家、行业、联盟技术标准60余项,陆续通过了基于GB/T20272-2019 《信息安全技术 操作系统安全技术要求》第四级、GM/T0028 《密码模块技术要求》第二级等标准的测试和认证。

图片
图片

【本文结束】如需转载请务必注明出处:快科技

消息来源:
https://583.cn/article/13775.html

在近期发布的openKylin(开放麒麟) 1.0版本中,实现从底层库到应用程序对新国标GB 18030-2022的支持,可正常查看和编辑符合GB 18030-2022规范的文本文件,并内置国标宋体系列字体,新增GB 18030-2022内码输入法,完成对新国标GB 18030-2022的全面支持。

今天,就带大家详细了解什么是GB18030-2022,为什么要实现对其的支持以及openKylin所做工作。

一、什么是GB18030-2022

GB18030全称为《信息技术 中文编码字符集》,是我国自主研制的超大型中文编码字符集国家标准。该标准规定了中文字符及其他常用字符的二进制编码及其对应的字形或图形。2022年7月19日发布的GB18030-2022是其最新版本(简称新国标),并将于2023年8月1日正式实施。

GB18030-2022标准相比旧版标准GB18030-2005,新增了17000多个汉字,共收录87887个汉字,228个汉字部首。新国标大幅扩充了汉字字符数量,尤其是生僻字数量,基本上满足了人名、地名、古籍等场景中生僻字处理的需求。

此外,GB18030-2022对旧的中文编码规范提供了良好的兼容性,新国标在字汇和编码上兼容GBK和GB2312。
GB18030-2022规定了三个实现级别,openKylin支持的级别3是最高实现级别——支持新国标中全部汉字字符。

二、为何需要支持GB18030-2022

依据GB18030-2022国标文件规定,新国标适用于所有”具备中文和其他文字图形字符信息化处理及交换功能的技术类产品”,包括计算机,操作系统,输入法等软硬件产品。从适用范围的角度来讲,openKylin操作系统需要支持新国标。

三、为支持GB18030-2022所作工作

为了完整准确支持GB18030-2022标准,需要从底层基础库到应用程序进行全面修改才能实现该目标。其涉及到的模块如下图所示:
图片
在openKylin社区GBCharactersEncoding SIG组的主导推动下,openKylin 1.0版本完成了文本编辑器(pluma)、GTK3框架、harfbuzz以及glibc库的相关修改,实现了对GB18030-2022的完整支持。

取之于开源,回馈于开源。在支持新国标的过程中,openKylin向上游pluma提交了一个PR,解决了pluma文本编辑无法设置非ASCII字符字体名字体的问题。

并向上游GTK提交了2个PR,解决了GTK3中存在的CSS解析器无法正确识别非ASCII字符字体名的问题。

同时,为了支持输入法新国标字符,GBCharactersEncoding SIG、InputMethod SIG联合开发了GB18030输入法,使用户可以通过国标内码输入任意新国标字符。至此,openKylin 1.0版本实现了对新国标的全面支持,包括文字输入、文字显示等多个方面。

四、后续计划


当然,支持新国标离不开各方面的支持与配合。为此,openKylin社区GBCharactersEncoding SIG还将与业界各方进行配合,进一步推动新国标的落地,包括但不限于以下几个方面:

推动第三方应用支持新国标
推动WPS、奇安信浏览器、搜狗输入法等主流应用程序支持新国标。
完善Qt GUI框架对新国标的支持

未来,GBCharactersEncoding SIG将持续跟进国标字符编码相关工作,力争成为权威的国标实现开源组织。欢迎各位爱好者加入GBCharactersEncoding SIG,和我们一起为国标字符信息化处理添砖加瓦。

GBCharactersEncoding SIG主页地址:
https://gitee.com/openkylin/community/t ... rsEncoding
头像
yq-ysy
论坛版主
帖子: 4450
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)

汉字编码标准在中国的发展历史

#3

帖子 yq-ysy » 2023-08-05 17:40

消息来源:
https://ask.nc005.com/50262/

汉字编码标准GB18030-2022包含87887个汉字,比2005版增加了17643个生僻汉字。

(汗渍整理)

GB是强制性国家标准,GB 18030《信息技术用中文编码字符集》是继GB 2312-1980和GB 13000.1-1993之后,我国最重要的汉字编码标准。GB 18030 空总码数超过150万码位,解决了人名、地名等文字的使用问题,为汉字研究、古籍整理等领域提供了统一的信息平台基础。

那么,汉字编码标准在中国的发展历史是怎样的?

1980年3月9日,国家标准总局发布了我国第一部汉字编码字符集标准,即GB 2312-80,共收录汉字和常用符号6763个,其中一级汉字3755个,二级汉字3008个,奠定了中文信息处理的基础。

1993年12月30日,全国信息技术标准化技术委员会发布了GB 13000.1-1993《信息技术通用多八位编码字符集(UCS)第1部分:体系结构和基本多语种平面》。该标准采用ISO/IEC国际标准ISO/IEC 10646-1: 1993,采用全新的多语种编码体系,包含中日韩20902个汉字,是编码体系未来的发展方向。

1998年10月,信息产业部电子第四研究所技术人员组成了标准起草组,提出了标准制定原则——兼容GB 2312信息处理交换码对应的事实上的内码标准,在词汇上支持所有中、日、韩(CJK)字和所有CJK扩展GB 13000.1-1993的A字,确定了编码体系和27484个汉字。

2000年3月17日,信 息 产 业 部、国家质量技术监督局发布了GB 18030-2000《信息技术信息交换用汉字编码字符集基本集扩展》,共收录了27533个汉字。

2005年11月8日,国家质量监督检验检疫总局和国家标准化管理委员会发布了GB 18030-2005《信息技术用中文编码字符集》,该字符集包含70244个汉字。

2022年7月28日,国家标准化管理委员会、工业和信息化部、国家语委在北京联合召开《信息技术用中文编码字符集》(GB 18030-2022)强制性国家标准发布实施新闻发布会。新版《信息技术用中文编码字符集》强制性国家标准将于2023年8月1日正式实施,共87887个汉字,比GB 18030-2005增加了17643个汉字。

《说文解字》9353字,《康熙字典》47035字,《汉语大字典》60370字。目前,拥有最多单词的词典是中华海兹,有85568个单词。GB 18030-2022比汉字海多了2319个字符。

据统计,汉字的数量可以达到14万,而常用汉字3500个就够了。只是在古名、古地名、古籍整理、考证考古中会遇到一些生僻字。汉字库的扩充主要是为了方便特殊行业和研究者,汉字的改革绝不会走“复古”、“返繁”的复古之路。
头像
yq-ysy
论坛版主
帖子: 4450
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)

Re: 国家标准《信息技术中文编码字符集GB18030-2022》PDF及CESI国标字体下载方法

#4

帖子 yq-ysy » 2023-08-05 17:58

由于目前网上没有《信息技术中文编码字符集GB18030-2022》电子版的文件,只有图片版,无法复制粘贴汉字和编码,
所以我想修正我做的《单手笔顺输入法(码表)》就有一些困难……
试了一下,可以在LibreOffice里调用CESI字体,然后用插入“特殊字符”的方法,就能输入新国标GB18030-2022的生僻汉字。
LibreOffice输入新国标GB18030-2022汉字.jpg
当然,8万多的汉字要编笔顺码,工作量有点大,而且大多数人也用不到8万汉字,所以生僻字部分可以先放一放;
但2万多常用字还是可以做到的,下班之后、工作之余,一天100字也就一年半两年而已,之前已经做过两回了。
好吧,再来一次,第三回,把这个电子版《信息技术中文编码字符集GB18030-2022》(常用字部分)做出来!
头像
yq-ysy
论坛版主
帖子: 4450
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)

GB18030-2022 认证检测产品覆盖类型

#5

帖子 yq-ysy » 2023-08-05 18:08

消息来源:
https://zhuanlan.zhihu.com/p/641324854
yangm 编辑于 2023-08-01 10:41・IP 属地上海

GB18030-2022标准的发展过程是GB2312-80、GBK、GB18030-2000、GB18030-2005、GB18030-2022几个阶段。

• GB2312-80标准应用在上世纪八十年的个人电脑PC机上,在DOS操作系统上建立中文信息处理CCDOS编码,分为一级常用字库和二级次常用字库,总计6763个中文字符。
• GBK标准出现在上世纪九十年代中期,应用在Windows操作系统,包含GB2312-80标准和台港澳的繁体汉字及韩日的异体汉字标准,总计20902个中文字符。
• GB18030-2000标准出现在本世纪初,在GBK标准转化为Unicode标准,并增加了统一表意文字扩展A区的6582字。
• GB18030-2005标准是在2000标准的基础上增加统一表意文字扩展B区的42711字。
• 2022年7月19日发布的GB18030-2022标准,完全兼容2005标准,并在其基础上增加扩展C、D、E、F区1.7万多字,将于2023年8月1日正式实施。

可见2022标准完全是一个兼容方案,强制执行的只是扩展C之后的部分,以前的汉字编码不受任何影响,但用户在2005标准之外定义的编码(譬如:公安人口信息专用字库),今年8月1日起须转换为2022标准才是国家认可的。

GB18030-2022标准定义了三个实现级别,可以看出其兼容方案的设置及其实现的步骤。
• Level 1 applies to all products with requirements that include support for the URO block (CJK Unified Ideographs) and for CJK Extension A.
• Level 2 applies to “system software and support software… include[ing] operating system, database management system and middleware”. Level adds a requirement to support all characters in the “Standard Chinese Characters List” (detailed in Annex E); that list has 8105 characters, most of which are in the URO, but also includes some characters from CJK Extensions A through F.
• Level 3 applies to all products “for government affairs services and public services”, and adds the requirement to support all CJK ideographs up through Extension F, as well as Kangxi radicals.

GB18030标准定义了一个有区别性的多字节形式的编码,一个字节、两个字节和四个字节,这种编码形式在中国之外的国家难以被普遍接受是潜在的巨大挑战。

扩展E测试

GB18030-2022 认证检测产品覆盖类型

操作系统类:
统信UOS完成全球操作系统领域首个GB 18030—2022《信息技术 中文编码字符集》标准适配,统信UOS桌面操作系统 V20 产品已通过新版标准的实现级别 3,这是该标准的最高实现级别。
openKylin 系统内置国标宋体系列字体,新增 GB 18030-2022 内码输入法,完成对新国标 GB 18030-2022 的全面支持。

数据库系统:达梦数据库支持两种常用的字符集 GB18030 和 UTF-8。

输入法系统:搜狗输入法提供符合新国标GB18030-2022的汉字输入能力,简单交互,快速输出,满足不同行业生僻字输入需求。

字体类: 阿里巴巴普惠体3.0适配支持新国标(GB18030-2022),扩容开发生僻字字库,其中覆盖绝大部分人名、地名、方言、古籍中的生僻字,为全球免费正版商用字体。
debug4
帖子: 85
注册时间: 2020-10-29 7:34

Re: 国家标准《信息技术中文编码字符集GB18030-2022》PDF及CESI国标字体下载方法

#6

帖子 debug4 » 2023-08-05 23:07

就想知道,这款 CESI 国标字体,有没有 机会(或者说,有没有“可能”),进 Ubuntu 和 Debian 源?

现在有思源宋体、思源黑体,但是简体中文风格(同时还要能兼容常见的繁体字、人名/地名/物理/化学 中的生僻字)的 仿宋、楷书,标宋,可以免费商用(包括个人免费使用、企业免费使用)的,真的不好找。

这个字库,还真的只能由国家来推动、执行了。
头像
yq-ysy
论坛版主
帖子: 4450
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)

Re: 国家标准《信息技术中文编码字符集GB18030-2022》PDF及CESI国标字体下载方法

#7

帖子 yq-ysy » 2023-08-06 17:10

debug4 写了: 2023-08-05 23:07 就想知道,这款 CESI 国标字体,有没有 机会(或者说,有没有“可能”),进 Ubuntu 和 Debian 源?

现在有思源宋体、思源黑体,但是简体中文风格(同时还要能兼容常见的繁体字、人名/地名/物理/化学 中的生僻字)的 仿宋、楷书,标宋,可以免费商用(包括个人免费使用、企业免费使用)的,真的不好找。

这个字库,还真的只能由国家来推动、执行了。
确实,理论上,国家可以买断了这几款 CESI 国标字体,然后开放免费使用,这样就能方便其他软件开发商支持新国标了。
ZF釆购的统信系统和麒麟系统,他们使用肯定没有版权问题。
不知道个人免费版的统信系统和麒麟系统是否默认带有这几款CESI字体,如果带有,那个人用应该也没有版权问题。

去统信系统和麒麟系统的论坛,问一问这几款 CESI 国标字体能否自由商用?
debug4
帖子: 85
注册时间: 2020-10-29 7:34

Re: 国家标准《信息技术中文编码字符集GB18030-2022》PDF及CESI国标字体下载方法

#8

帖子 debug4 » 2023-08-06 22:43

看来,方正是失宠了...
头像
yq-ysy
论坛版主
帖子: 4450
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)

完成双字节1区和5区GB国际字符的录入,发现CESI国标字体的黑体一处错误

#9

帖子 yq-ysy » 2023-08-08 18:25

2023-08-07 完成双字节1区GB国际字符的录入(尚未录入单手笔顺输入法码表)
2024-08-08 完成双字节5区GB国际字符的录入(录入单手笔顺输入法码表并初步调整)


2025-08-08 发现CESI国标字体的黑体一处错误,在双字节5区A978处,GB/T 13000代码FE5B本应是左花括号,现在显示为全角空格。其他CESI国标字体FE5B显示左花括号正常。
不知道应该向谁(向哪个部门)报告这个错误?
——更新:百度搜索“中国电子技术标准化研究院 联系方式”找到三个人的电子邮箱,已给他、她和他发送了报告错误的邮件。
CESI国标黑体一处错误,在双字节5区A978处.jpg
debug4
帖子: 85
注册时间: 2020-10-29 7:34

Re: 完成双字节1区和5区GB国际字符的录入,发现CESI国标字体的黑体一处错误

#10

帖子 debug4 » 2023-08-09 6:48

yq-ysy 写了: 2023-08-08 18:25 2023-08-07 完成双字节1区GB国际字符的录入(尚未录入单手笔顺输入法码表)
2024-08-08 完成双字节5区GB国际字符的录入(录入单手笔顺输入法码表并初步调整)
2025-08-08 发现CESI国标字体的黑体一处错误,在双字节5区A978处,GB/T 13000代码FE5B本应是左花括号,现在显示为全角空格。其他CESI国标字体FE5B显示左花括号正常。

不知道应该向谁(向哪个部门)报告这个错误?
——更新:百度搜索“中国电子技术标准化研究院 联系方式”找到三个人的电子邮箱,已给他、她和他发送了报告错误的邮件。


GB18030-2022国标汉字_单手笔顺输入法码表_08-08.zip
厉害了我的哥!
另外,建议标识字体 TTF 文件的版本号。
我试了 1.0-2 的 fonts-cesi-ht 的 DEB 包, \symbol{"FE5B} 是正常的 左花括号
头像
yq-ysy
论坛版主
帖子: 4450
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)

Re: 完成双字节1区和5区GB国际字符的录入,发现CESI国标字体的黑体一处错误

#11

帖子 yq-ysy » 2023-08-09 9:31

debug4 写了: 2023-08-09 6:48
yq-ysy 写了: 2023-08-08 18:25 2025-08-08 发现CESI国标字体的黑体一处错误,在双字节5区A978处,GB/T 13000代码FE5B本应是左花括号,现在显示为全角空格。其他CESI国标字体FE5B显示左花括号正常。
厉害了我的哥!
另外,建议标识字体 TTF 文件的版本号。
我试了 1.0-2 的 fonts-cesi-ht 的 DEB 包, \symbol{"FE5B} 是正常的 左花括号
请问Linux下如何查看字体 TTF 文件的版本号?
我在网上搜索到一个命令,但运行提示有错误:
$ fc-query -f '%fontversion\n' ./GB_HT_GB18030.ttf | perl -E 'printf "%.3f\n", <>/65536.0'
Fontconfig: Pattern format error: expected '{' at 2.
我切换到Windows10下看到了版本号,我这个是1.0的,
在Word里选择“国标黑体”,插入字符FE5B也是有同样的错误。看来1.0.2修正了。
Word显示1.0版GB黑体FE5B错误.jpg
debug4
帖子: 85
注册时间: 2020-10-29 7:34

Re: 国家标准《信息技术中文编码字符集GB18030-2022》PDF及CESI国标字体下载方法

#12

帖子 debug4 » 2023-08-09 21:19

可能之前我没表达清楚:我测试 的是 CESI 早期的字体TTF 文件,不是现在新出的 GB 国标黑体 文件TTF。

从现在的测试和反馈情况来看, CESI 的字体是正常的。现在新制作的 GB 国标黑体 GB13000 ,出现了缺陷 (左花括号 无效)。

cd /usr/share/fonts/fonts-cesi

otfinfo -i CESI_HT_GB13000.TTF

(说明:otfinfo 命令,适用于 TTF 和 OTF 字体文件,但对 TTC 复合字体文件无效。 )

代码: 全选

Family:              CESI_HT_GB13000
Subfamily:           Regular
Full name:           CESI_HT_GB13000
PostScript name:     CESI_HT_GB13000
Version:             Version 1.00
Unique ID:           CESI_HT_GB13000:Version 1.00 Regular
Designer URL:        http://www.hgfonts.com
Trademark:           中国电子技术标准化研究院
Copyright:           北京赛西科技发展有限责任公司
License URL:         http://www.hgfonts.com/services_21.html
Vendor ID:           JBHG
话说,你发现了这个 BUG ,官方应该给你发红包哦。
不然,如果大范围正式使用,特别是在学校、教育系统里,如制作 数学试卷,才发现这个问题,那问题就大发了。
回复