利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

Ping-Wu · #1

我们这个论坛的版主（之一） yq-ysy 发明了一套单手笔顺输入法。更让我们感动的，他花了数年时间（？），夜以继日，利用 LibreOffice Calc 敲出了一个配合这个单手笔顺输入法的庞大的词库。不利用一下实在可惜！

我趁这个周日把 yq-ysy 这个词库稍微整理一下，然后输入到 ibus-libpinyin 里去做成可以让后者使用的词库。步骤非常简单，但因为中文的输入动作，主要的关键就是一个良好的 database （词库），加入yq-ysy 这个词库后，可以让 ibus-libpinyin 变成非常强势。

我们这个论坛的大老们，可能因为年纪的关系，不太使用拼音输入法。不过据我的观察，现代国内的年轻人，几乎都跟我一样，根本不懂基于笔画的输入法。为了跟上时代，非常希望论坛的大老们能早点接受拼音输入法，支持一下 ibus-libpinyin。

把 yq-ysy 的词库移植到 ibus-libpinyin 的步骤非常简单，说出来不值一分钱（但就是要有这个心）：

代码：全选

cp 核心词库（合并）_180659个.txt ysy.input.txt
file1="ysy.input.txt"
file2="ysy.output.txt"
while read -r f1 f2 f3 f4; do printf '%s\t%s\n' "$f2" "$f1" >>"$file2"; done <"$file1"

在 ibus-libpinyin 的 dialog window 上，按 preference --> import ，然后选择上面程序做出来的 ysy.output.txt 档案即可。

《待补充》

: new_year.2.gif (341.64 KiB) 查看 19440 次

yq-ysy · #2

Ping-Wu 写了： ↑2019-08-19 18:08 我们这个论坛的版主（之一） yq-ysy 发明了一套单手笔顺输入法。更让我们感动的，他花了数年时间（？），夜以继日，利用 LibreOffice Calc 敲出了一个配合这个单手笔顺输入法的庞大的词库。不利用一下实在可惜！

没那么夸张……设计“单手笔顺输入法”的单字码表是花了一年半，词库就相对简单了，都是用 Python 脚本整理编排，拼音部分是采纳了其它输入法的共享词库，也就花了一个多月吧。

核心词库18万条，扩展词库165万条。很早之前也想推荐您把这词库添加进 ibus-libpinyin，但我不知道应该如何操作，加上没人编写“单手笔顺输入法”软件，有点泄气，就没心思去研究这事了。

看了一下，弄明白你这句脚本了，我试试全部合并到一起？总共183万条词组的检索，会不会影响输入法的速度？

yq-ysy · #3

折腾了一下午，终于安装好了。
之前 Ping-Wu 的脚本有点问题（没有换行，导致检索不出词库里的词），多次尝试后，也修正了。
while read -r f1 f2 f3 f4; do printf '%s\t%s\n' "$f2" "$f1" >>"$file2"; done <"$file1"
这样就换行成功了。

ibus-libpinyin 及其183万条扩展词库，安装方法如下（以我用的 xfce 4 窗口管理器桌面为例）：

（1）在终端里运行 sudo apt install ibus-libpinyin （软件中心里找不到 ibus-libpinyin）
（2）安装完成后，如果之前是使用 Fcitx 或者 Rime 输入法之类的，需要去系统设置的“语言支持”里改用ibus。
如果之前一直都是在使用ibus的，可以用鼠标右键点击任务栏上的语言图标，选择“重新启动”就能重启 ibus。
（3）试试 Super + 空格，或者 Ctrl + 空格，或者 Ctrl + Shift，调出输入法，切换选择“智能拼音”就是 ibus-libpinyin ，
然后看看能否打字，有必要的话就重启一下电脑。

（4）下载 183万词库——
百度网盘链接： https://pan.baidu.com/s/1exIPUJn3tqlEl6rOaJ9L4Q 提取码：yvmh
得到的文件是 ext_dict_1830000_words.txt.zip 大小 22M，鼠标右键解压缩，得到 ext_dict_1830000_words.txt 大小 69M。
（5）安装 183万词库——
鼠标右键点击 ibus-libpinyin 输入法浮动栏的“齿轮图标”，在弹出的“首选项”窗口里，选择“用户数据”标签页，
点击“导入”按钮，选择刚才解压缩的文件即可。

（6）然后看看能否打字，有必要的话，用鼠标右键点击任务栏上的语言图标，选择“重新启动”就能重启 ibus，或者重启一下电脑。
以下是我测试的，打出词库最后几行当中某个生僻的诗词。速度没有延迟，183万检索很快。

现在希望得到改进的是：
（1）只打首字母，还不能检索出扩展词库里的词，例如上图的那句诗词，必须打全拼，有点麻烦。
（2）以前 Ping-Wu 说过，ibus-libpinyin 对单字的输入支持得不好，我的“单手笔顺输入法”里有 “单字_四合一_29685个.txt”码表，
里面有两种拼音，一个是带音标的（用于显示），另以一个是带数字的（用于输入拼音和音标编号），
一个字带有几个拼音，我在码表里是用“/”分隔开来的，例如：1 一 1 null null 1 200 1 300 yī/yí/yì yi1/yi2/yi4
现在问题是多音字怎么办？是一行一个字一个音？还是一行一个字多个音并列？不知道应该如何写脚本。
（如果这个问题解决了，我再更新词库，然后置顶这个帖子。）
（3）还是继续等待，希望有热心的程序员在 ibus-libpinyin 里加入使用数字小键盘输入我的“单手笔顺”码表，
实现一种输入法包含拼音、笔顺两种输入方式（不用切换）。

Ping-Wu · #4

因为时间关系，暂时聊几句：

yq-ysy 写了： ↑2019-08-20 19:15 （1）只打首字母，还不能检索出扩展词库里的词，例如上图的那句诗词，必须打全拼，有点麻烦。

请见：

yq-ysy 写了： ↑2019-08-20 19:15（3）还是继续等待，希望有热心的程序员在 ibus-libpinyin 里加入使用数字小键盘输入我的“单手笔顺”码表，
实现一种输入法包含拼音、笔顺两种输入方式（不用切换）。

使用 ibus-libpinyin 的人多了，才能引起程序员对使用数字小键盘输入“单手笔顺”的兴趣。这是阳谋也是唯一的办法。

yq-ysy · #5

Ping-Wu 写了： ↑2019-08-21 2:56 因为时间关系，暂时聊几句：
yq-ysy 写了： ↑2019-08-20 19:15 （1）只打首字母，还不能检索出扩展词库里的词，例如上图的那句诗词，必须打全拼，有点麻烦。
请见：

哦，原来声母要打完整。我启用“模糊音”之后，可以用 nnsybxs 打出来那句诗了。
假设这句七言诗是要经常打的，它能不能在打出前四五个字母的时候，整句诗就排列在首位？（类似很多输入法的联想词频，前四字猜出后三字。）

Ping-Wu · #6

yq-ysy 写了： ↑2019-08-21 9:10 哦，原来声母要打完整。我启用“模糊音”之后，可以用 nnsybxs 打出来那句诗了。

“孺子”（

）可教也！有回馈，才有动力。大家死气沉沉的，大牛也都跑光了。

yq-ysy 写了： ↑2019-08-21 9:10假设这句七言诗是要经常打的，它能不能在打出前四五个字母的时候，整句诗就排列在首位？（类似很多输入法的联想词频，前四字猜出后三字。）

ibus-libpinyin 新增了一个 “show suggestions” 功能，但还在萌芽阶段。

大家都知道，中文输入过程，主要就是一个 database 作业，任何一个输入法，用久了，累积个人的常用字/词库， database 充实了，就很好用。反过来说，任何其他的输入法，一开始因为没有自己的字/词库，一定不好用。这是一般人打死也不愿意考虑新输入法的主要原因。我从搜狗转到 ibus-pinyin，然后现在从 ibus-pinyin 转到 ibus-libpinyin，其实都是有原因，都不是自愿的（involuntary）。ibus-libpinyin 加了新的词库后，非常好用（snappy）。当然啦，越用就会越好用，这也算是一个投资吧。非常好的投资！

这个 database 的输入参数，可以是拼音字母，当然也可以是笔划代码。ibus-pinyin （ibus-libpinyin 的前身）也有笔划输入的基本架构，但没有人注意。

Ping-Wu · #7

yq-ysy 写了： ↑2019-08-20 19:15 （2）以前 Ping-Wu 说过，ibus-libpinyin 对单字的输入支持得不好

ibus-libpinyin 对单字的输入支持得不好，原因是预设的字库里，所有单字起初都派定统一的频率参数。用久了以后，常使用单字频率参数就会往上调整，下次用就快多了。这是非常简单大家可以做到最基本的事，没有人愿意做任何贡献。

如果不是单字而是词/句的话，输入的 data 就比较 unique，常常一打马上就出来。但前提是输入的词/句必须先存在该输入法的 database 里，这就是为什么引入单手笔顺输入法词库可以大大的加强 ibus-libpinyin。用久了以后，这个 “加强版” 词库里的频率参数得到适当的调整，应该可以比搜狗拼音还快，但没有后者（严重）的缺点。

如果词库真正成熟了，ibus-libpinyin 还可以把智能功能关掉，整个中文输入就只是 database (sqlite) 作业，更快。

yq-ysy · #8

Ping-Wu 写了： ↑2019-09-10 22:48
yq-ysy 写了： ↑2019-08-20 19:15 （2）以前 Ping-Wu 说过，ibus-libpinyin 对单字的输入支持得不好
ibus-libpinyin 对单字的输入支持得不好，原因是预设的字库里，所有单字起初都派定统一的频率参数。用久了以后，常使用单字频率参数就会往上调整，下次用就快多了。这是非常简单大家可以做到最基本的事，没有人愿意做任何贡献。

如果不是单字而是词/句的话，输入的 data 就比较 unique，常常一打马上就出来。但前提是输入的词/句必须先存在该输入法的 database 里，这就是为什么引入单手笔顺输入法词库可以大大的加强 ibus-libpinyin。用久了以后，这个 “加强版” 词库里的频率参数得到适当的调整，应该可以比搜狗拼音还快，但没有后者（严重）的缺点。

如果词库真正成熟了，ibus-libpinyin 还可以把智能功能关掉，整个中文输入就只是 database (sqlite) 作业，更快。

我的单字txt码表里面，每个单字都有字频，能不能把这个字频转换添加到 ibus-libpinyin 的单字默认字频里？
这样即使 ibus-libpinyin 暂时没能实现笔顺输入，也可以先改善拼音的单字输入。

Ping-Wu · #9

yq-ysy 写了： ↑2019-09-11 10:56
Ping-Wu 写了： ↑2019-09-10 22:48
yq-ysy 写了： ↑2019-08-20 19:15 （2）以前 Ping-Wu 说过，ibus-libpinyin 对单字的输入支持得不好
ibus-libpinyin 对单字的输入支持得不好，原因是预设的字库里，所有单字起初都派定统一的频率参数。用久了以后，常使用单字频率参数就会往上调整，下次用就快多了。这是非常简单大家可以做到最基本的事，没有人愿意做任何贡献。

如果不是单字而是词/句的话，输入的 data 就比较 unique，常常一打马上就出来。但前提是输入的词/句必须先存在该输入法的 database 里，这就是为什么引入单手笔顺输入法词库可以大大的加强 ibus-libpinyin。用久了以后，这个 “加强版” 词库里的频率参数得到适当的调整，应该可以比搜狗拼音还快，但没有后者（严重）的缺点。

如果词库真正成熟了，ibus-libpinyin 还可以把智能功能关掉，整个中文输入就只是 database (sqlite) 作业，更快。
我的单字txt码表里面，每个单字都有字频，能不能把这个字频转换添加到 ibus-libpinyin 的单字默认字频里？
这样即使 ibus-libpinyin 暂时没能实现笔顺输入，也可以先改善拼音的单字输入。

我没有注意到单字txt码表里面的字频。

字频读进去以后 (定为 f3 ），把旧的指令稍微改成：

do printf '%s\t%s\t\%s\n' "$f2" "$f1" "$f3"

就可以把字频参数放到 ibus-libpinyin 词库了。

这是一个相当令人振奋的进展！

（待续）

Ping-Wu · #10

yq-ysy 写了： ↑2019-09-11 10:56
Ping-Wu 写了： ↑2019-09-10 22:48
yq-ysy 写了： ↑2019-08-20 19:15 （2）以前 Ping-Wu 说过，ibus-libpinyin 对单字的输入支持得不好
ibus-libpinyin 对单字的输入支持得不好，原因是预设的字库里，所有单字起初都派定统一的频率参数。用久了以后，常使用单字频率参数就会往上调整，下次用就快多了。这是非常简单大家可以做到最基本的事，没有人愿意做任何贡献。

如果不是单字而是词/句的话，输入的 data 就比较 unique，常常一打马上就出来。但前提是输入的词/句必须先存在该输入法的 database 里，这就是为什么引入单手笔顺输入法词库可以大大的加强 ibus-libpinyin。用久了以后，这个 “加强版” 词库里的频率参数得到适当的调整，应该可以比搜狗拼音还快，但没有后者（严重）的缺点。

如果词库真正成熟了，ibus-libpinyin 还可以把智能功能关掉，整个中文输入就只是 database (sqlite) 作业，更快。
我的单字txt码表里面，每个单字都有字频，能不能把这个字频转换添加到 ibus-libpinyin 的单字默认字频里？
这样即使 ibus-libpinyin 暂时没能实现笔顺输入，也可以先改善拼音的单字输入。

我没有注意到单字txt码表里面的字频。

字频读进去以后 (定为 f3 ），把旧的指令稍微改成：

do printf '%s\t%s\t\%s\n' "$f2" "$f1" "$f3"

就可以把字频参数放到 ibus-libpinyin 词库了。

这是一个相当令人振奋的进展！

（待续）

yq-ysy · #11

Ping-Wu 写了： ↑2019-09-11 12:38 我没有注意到单字txt码表里面的字频。
字频读进去以后 (定为 f3 ），把旧的指令稍微改成：
do printf '%s\t%s\t\%s\n' "$f2" "$f1" "$f3"
就可以把字频参数放到 ibus-libpinyin 词库了。
这是一个相当令人振奋的进展！
（待续）

如果使用的是“单字_六全码_29685个.txt”或者“单字_笔顺码_29685个.txt”，那么字频参数是最后一列，也就是第 5 列，f5。
如果使用的是“单字_四合一_29685个.txt”，其中第 7 行和第 9 列分别是“六全码”和“笔顺码”的字频，只使用 f7 或者 f9 一个就行。
注意：我这个字频是按笔顺输入的使用频率来排列的，所以用在拼音里，有些字也许会排列不正确（但大部分应该都适用）。

因为汉字有很多是多音字，所以在拼音输入法里，又牵涉到“同一个汉字在另一个拼音里的使用频率”问题。
我的“单字_四合一_29685个.txt”码表里带有拼音，其中第 10 列是显示用的拼音（带音标），第 11 列输入用的拼音（带音标序号）
例如：“见”这个字，第10列是： jiàn/jian/xiàn ，第 11列是：jian4/jian0/xian4
显然，输入 jian4 时，常用的“见”字应该排在前面，而输入xian4 时，排在前面的应该是“现”字，“见”字只用在古诗“风吹草低见牛羊”上。
jian0 用得就更少了。因此，如果是按拼音来排列字频，理论上一个字的三个发音，还应该为每个发音再列一个字频。

笔顺输入的单字重码很少，所以几乎遇不到这种问题，而且有重码的那些字，我也早已排好了字频。
例如：“人”和“入”，都是一撇一捺，当然是“人”的字频排在最前面啦。
笔顺输入的词组可以说几乎是 0 重码，笔画越多，重码越少。相对于拼音输入，优势就体现出来了，不用翻页选择，省事啊。
哈哈，为什么说“几乎”？词组还是有几个重码的，例如：人口，入口。
就算有重码，也不会重好几个，最多重一二个，还没见过重三个的，不会像拼音那样，翻了好几页还没找到要用的字词。

还有一个问题，就是，同音字，是否需要拆分、排列，才能导入 ibus-libpinyin 的码表？
也就是说，“见”这个字，第 11列是：jian4/jian0/xian4 是否需要拆分成三行？
见 jian4
见 jian0
见 xian4
还是 ibus-libpinyin 的码表有它自己规定的同音字分隔符，只要转换一下就行？
例如：见 jian4'jian0'xian4 ？

-------------------

最后，我看到之前说的德国网友 mike fabian，他开发有一个 ibus-typing-booster，
https://github.com/mike-fabian/ibus-typing-booster
支持多种语言，也支持小键盘输入，不知道能不能改造用来实现“单手笔顺输入法”？
之前在他的 ibus-table 项目中和他的交流出现了障碍，他不再答复我了，所以我也不好意思再向他提要求。

Ping-Wu · #12

yq-ysy 写了： ↑2019-09-11 14:59如果使用的是“单字_四合一_29685个.txt”，其中第 7 行和第 9 列分别是“六全码”和“笔顺码”的字频，只使用 f7 或者 f9 一个就行。

“字频” 是怎么定义的？我看了一下“单字_四合一_29685个.txt” 这个档案，绝大多数单字的字频是 “200”（或 300），有极少数是 201， 202，或 203，但跟使用的频率好像不太相符合？

yq-ysy · #13

Ping-Wu 写了： ↑2019-09-12 9:47
yq-ysy 写了： ↑2019-09-11 14:59如果使用的是“单字_四合一_29685个.txt”，其中第 7 行和第 9 列分别是“六全码”和“笔顺码”的字频，只使用 f7 或者 f9 一个就行。
“字频” 是怎么定义的？我看了一下“单字_四合一_29685个.txt” 这个档案，绝大多数单字的字频是 “200”（或 300），有极少数是 201， 202，或 203，但跟使用的频率好像不太相符合？

定义的原则是：数字越小，使用频率越高（降序）。
输入法软件的开发者，可以按自己定义的字频规则，采用数学算法，重新编排、或者重新排序字频（改为升序）。

我设计的“单手笔顺输入法”包含有三种编码，设想中的输入法程序是混用这三种编码的，不需要切换模式。
精简码是用于最常见的几千个汉字，没有重码，所以字频全部是 100
六全码包含了全部近3万汉字，字频是200-299
笔顺码也包含了全部近3万汉字，是老老实实的一笔一画，用得最少，字频是300-399

例如：汉字一竖“丨”（念作“竖、滚”）和竖勾“亅”（念作“决”）的六全码、笔顺码也都是 2 ，
但是汉字中以一竖开头的字，用得最多得是“国”这个字，
“国”这个字的六全码是 251141 ；笔顺码是 25112141 ；都是以 2 开头，所以我把精简码 2 分配给“国”使用，
因此，当用户输入 2 时，输入法程序检索“混排_三合一”码表或者“单字_四合一”码表得到得结果是：

国，2，100 ；
丨，2，200 ；
亅，2，201 ；
丨，2，300 ；
亅，2，301 ；
输入法浮动拦显示的就应该是：（1）国（2）丨（3）亅（4）丨（5）亅

同时，为了让用户明白，他在浮动栏选择的那一个字是属于哪一种编码？
所以我在使用说明中建议：精简码（1）使用全黑色，六全码（2、3）使用炭灰色，笔顺码（4、5）使用灰色
这样，用户就一目了然。（请参阅 icon 目录下的 Sample.jpg 悬浮栏设计功能说明，图中是以输入“求”字为例。）

同理，如果用户在 2（竖）后面继续输入 5（折）时，即 25，输入法浮动拦显示的应该是：（1）同（2）巾（3）冂（4）巾（5）冂
我设想中的悬浮栏第二行，有“边旁部首编码”提示，或者“后续编码”提示，所以用户不用背字根，不用背编码表，会写字的就自然会打字。

又仔细想了一下，也许我这个笔顺字频并不适用于拼音字频。
例如：“一”这个字，就是输入“1”，但这个“1”是属于六全码，不属于精简码（因为只有一位数字，直接用就行，不是2～6位数精简为1位数）。
因为“一”这个字的字频是200，但是“衣”这个字——六全码 413534 ，字频 201，它有精简码 413（6位数精简为3位数），字频100 ，
所以如果按拼音输入 yi ，调用我的笔顺字频来排列，“衣”这个字就排在“一”前面了，这是不对的。如果只按六全码排列字频，则是“碰巧对了”。

Ping-Wu · #14

yq-ysy 写了： ↑2019-09-12 14:16 输入法软件的开发者，可以按自己定义的字频规则，采用数学算法，重新编排、或者重新排序字频（改为升序）。

ibus-libpinyin 所用字频（或词频）参数的数据库，必须靠使用者自己长期使用来建立。因为 ibus-libpinyin 不牵涉到云端输入，无法像搜狗强行收集使用者输入的数据，最好的办法只有经由类似 GitHub 方式让有心改善开源中文输入的人把个人建立下来的字词库（主要是字/词/出现的频率），整合起来。不过照目前的情况，任何计划都会只是浪费时间。

yq-ysy · #15

Ping-Wu 写了： ↑2019-09-16 2:30
yq-ysy 写了： ↑2019-09-12 14:16 输入法软件的开发者，可以按自己定义的字频规则，采用数学算法，重新编排、或者重新排序字频（改为升序）。
ibus-libpinyin 所用字频（或词频）参数的数据库，必须靠使用者自己长期使用来建立。因为 ibus-libpinyin 不牵涉到云端输入，无法像搜狗强行收集使用者输入的数据，最好的办法只有经由类似 GitHub 方式让有心改善开源中文输入的人把个人建立下来的字词库（主要是字/词/出现的频率），整合起来。不过照目前的情况，任何计划都会只是浪费时间。

如果想集中力量办大事，还是需要一个能发工资公司，才能调动起人力。
但公司必然以盈利为目的，除非是为了打广告，否则绝对不会去做一个公益项目。
所以，自由市场经济并不是能解决一切问题的完美良药。

换个角度想，如果我说：未来“单手笔顺输入法”能取代“搜狗拼音输入法”的市场统治地位，那么就会有很多公司抢着来做！
我之前给很多输入法的开发者都这么说过，可惜，没人信。
也许，应该改为给向老板说说？他们的市场眼光可能比程序员更长远一些，谁有搜狐老总张朝阳的联系方法？

利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin