文本文件中包含有“大方框带数字”的乱码汉字,如何排查筛选(删除)它们?

OOo,TeX,KO,ABI,GIMP,Picasa,ProE,QCAD,Inkscape,Kicad,Eagle
回复
头像
yq-ysy
论坛版主
帖子: 4432
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)

文本文件中包含有“大方框带数字”的乱码汉字,如何排查筛选(删除)它们?

#1

帖子 yq-ysy » 2017-04-08 11:01

正在做的输入法,遇到一些在gedit中显示为“大方框带数字”的乱码汉字,在Libreoffice中则无法显示(显示为一格空白,但每格又不同)。例如:
?
?
?
?
?
?
?
?
?
?
?
?
?
我觉得这些乱码汉字如果放进输入法里,别人多半也是显示不出来,所以想剔除它们,
但不知如何批量筛选它们出来?

注:这类汉字(包括乱码的、以及不乱码但是字体怪怪的汉字),
我在电子表格里用 lenb() 函数计算时,得到的结果都是4个byte字节,而不是像普通汉字那样的2个byte字节(英文1个byte字节)。
用 len() 函数计算时,得到的结果都是2个字,而不是像普通汉字那样的是1个字。
因为这些字和一些词组混在了一起,所以无法简单地用判断lenb()函数结果来获得(两个字的词组计算结果也是4个byte字节,而且我也想从中提取出可见的字,仅仅删除不可见的乱码)。
yinflying
帖子: 26
注册时间: 2015-06-01 23:48
系统: Ubuntu14.04

Re: 文本文件中包含有“大方框带数字”的乱码汉字,如何排查筛选(删除)它们?

#2

帖子 yinflying » 2017-04-08 11:28

正向剔除比较麻烦,你应该使用反向筛选。utf-8的汉字太多了,也许你需要GB2312的包含 字库,常用字都有了。
头像
yq-ysy
论坛版主
帖子: 4432
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)

Re: 文本文件中包含有“大方框带数字”的乱码汉字,如何排查筛选(删除)它们?

#3

帖子 yq-ysy » 2017-04-08 11:35

yinflying 写了:正向剔除比较麻烦,你应该使用反向筛选。utf-8的汉字太多了,也许你需要GB2312的包含 字库,常用字都有了。
常见字已经包括完了,也就2万7千多,现在想尽量囊括“系统默认可以看见的字”(随着字体文件的完善,以后也许还会增长)。
现在我搜集到的汉字,带乱码的有接近8万个,估计去除看不见的乱码,也许能多增加一万左右可见的汉字。
回复