【更新】看过“搜狗输入法核心词库”之后,想“盗用它的词库”的心都没有了。(补充:为什么我讨厌百度360腾讯)

OOo,TeX,KO,ABI,GIMP,Picasa,ProE,QCAD,Inkscape,Kicad,Eagle
回复
头像
yq-ysy
论坛版主
帖子: 4442
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)

【更新】看过“搜狗输入法核心词库”之后,想“盗用它的词库”的心都没有了。(补充:为什么我讨厌百度360腾讯)

#1

帖子 yq-ysy » 2017-03-30 11:11

首先,介绍一下背景:
之前多次说过,我正在做一个开源的笔顺输入法,现在单字码表已经完成,准备做词汇码表。
也得到一些开源程序员的劝诫,说不能盗用别人的码表,需要得到别人的同意或者原创的才能纳入开源库。
词库码表少则几万个词汇,多则几百万个词汇,
我想挑出一些最常用的词汇写个程序脚本加上我的笔顺编码,作为基础词库,其它的则以分类词库供人选用。
所以,我就想看看,其它的输入法的“常用词汇”一般都有哪些?

于是,网上搜索找到了一个——搜狗核心词库.7z
解压缩后,得到两个txt格式的词库(不带拼音,一个是7.7版,另一个是8.0版),每个版本都是4万6千个字词。
但仔细一挑选就发现,这个安装后的不联网的默认词库,从开源爱好者的角度来看,简直是没法用啊!
虽然它也许包括有搜狗根据数据统计得到的“使用频率最高”的一些词汇,但也掺进了许多垃圾,体现了搜狗三个方面的思想:

一是懒。
只要是用户敲得多的,不加辨识,一律纳入,不论错误断句、错别字词、谐音别字(拼音输入常见)统统收纳。
而且字词扩展的语句太多,挤占了其它词汇应当存在的空间。当然联网有云词库就不怕,但如果不连上网络就麻烦了。
例如:“你要”开头的有133条,“你还”开头的有152条,“我就”开头的有247条,像“你为什”这样半截词有很多。

二是贪。
著名的、知名的、有名的企业、产品、网站,录入一些常见的,也情有可原。
但是你搜索以“……网”为结尾的词看看,有几个?哦不,应该说“有几百个?”——几百个不算多是吧?
那么连带这些网站的分类导航也收录进去了,而且这些网站是某个不知道属于那个省的小城市的不出名的小网站,不奇怪吗?
房产、汽车的品牌名称更是一个都能不少,全国人民整天都在聊这些名称?输入这些品牌名称的频率能超过许多字词?
——这些词汇是更应该放入“云词库”才对的啊,为什么把它们放入了软件自带的默认字库?不用联网也能做广告了,是吧?
不知道“百度输入法、QQ输入法”有没有这样的情况?(“呵呵”二字我在这里能不能节省下来?)

三是脏。
这是第一点的延伸——懒人自然是没有公德心的,不会去主动做“净化环境”的事情的,懒得做嘛。其结果就是脏:
充满了各种污秽的粗口话、网络自造的新词歪词恶搞词、甚至还有一眼看上去就知道是色情网站名称等单词。
——你是想方便孩子们输入这些词?或者你是想孩子们在打其它词的时,提示栏里也冒出这些词汇?

不是说要用输入法来“完全屏蔽不良词汇,完全无法输入”,但你也不能让这些恶劣的词汇能“更方便地输入”啊。
例如一句侮辱别人母亲的骂人话,你只要不把它纳入输入法词汇中,让想骂人的人一个字一个字慢慢打,这样世界就可以安静许多了嘛。
——我也不怕大家转发这篇文章出去,最好让张朝阳看到,醒醒脑,改良改良。
(注意:不是要你改良核心词库的加密方法,相反,而是应该改良自带的默认词库并公开给大家看看!不就4万6千个单词嘛。)
——借用他参与的一个广告里说的台词:“不就一个破企业嘛。”最近电视台经常播放的。




--------------------- 2017-04-14 补充:为什么我讨厌360和百度 --------------------------

小学老师布置作业:“我们明天要学的课文里,提到一个典故‘烽火戏诸侯’,大家回家后预习预习,‘烽火戏诸侯’讲的是什么故事?不懂的可以上网百度一下,”小朋友很听话地回家上网百度了,然后笑话就来了——搜索到那么多个结果,哪个结果才是啊?问问各大搜索引擎的掌门人,你们希望自己的孩子搜索到这个结果吗?

用事实说话,国内可以访问到的各大搜索引擎(时间2017年04月14日)搜索“烽火戏诸侯”得到结果的对比截图。
烽火戏诸侯.jpg
360搜索到的首页没有解释这个典故的文字结果,第1项放的是自己的360百科,但却是在介绍一个网络作家,第2项是相关新闻讨论,第5项有相关图片,彻底体现了360的历史价值观(对历史根本不屑一顾)。

百度搜索到的首页第4项才是解释这个典故的文字结果,第1项放的是自己的百度百科,但却是在介绍一个网络作家,下面有个小字“历史典故”,完全体现了百度的历史价值观(历史必须排在网络名人之后)。

必应搜索到的首页解释这个典故虽然排在第3项,但前2项目用不同颜色背景表明那些是广告,观众可以不费力跳过,直接看到“实际”的第一位置是互动百科的解释,而且第3项收录的百度百科也没弄混,把典故放前,那个同名网络作家放后,算个良心商家(广告可以有,但要划分清楚界线)。

搜狗搜索到的首页解释这个典故排在第1项,是来自互动百科的解释,第4项是取自360个人图书馆(为什么360自己不搜索自己?),其它的依然大部分是那个同名网络作家的链接。

国搜搜索到的首页解释这个典故也排在第1项,放的是自己的国搜百科,后面的搜索结果才是相关游戏新闻,是所有搜索引擎中出现那个同名网络作家最少的(也许是因为这个搜索引擎刚诞生不久比较新?)。




--------------------- 2017-04-14 补充:为什么我讨厌腾讯 --------------------------

当然windows下的QQ是一个很好的网络聊天软件,但如同搜狗输入法一样,“好用”并不代表“我喜欢”。
经常使用Linux系统的人绝大部分都讨厌腾讯吧?原因自然不用多说,如果再翻看“如何在Linux上用QQ”的发展历史,就不只是讨厌,而更是气愤了。

现在只能幻想:未来某日,中美发生战争,主席一声令下:“禁止使用windows软件!”,然后主席在视察“国产Linux操作系统”时问一句:“我的孩子想在这个系统上用QQ和同学聊天,怎么办?”——也许这时候,腾讯才会屁颠屁颠地去加班加点开发真正可用的Linux版QQ吧?(当然,也有可能很有骨气,打死也不开发Linux版的QQ!)
科学之子
帖子: 2284
注册时间: 2013-05-26 6:58
系统: Debian 9

Re: 正在做一个开源输入法码表,看过“搜狗输入法核心词库”之后,想“盗用它的词库”的心都没有了

#2

帖子 科学之子 » 2017-03-30 12:19

个人感觉fcitx拼音无压力
平常都养成了"训练"拼音输入法的习惯
如果输入法组词错误,我就会让故意多打几遍
感觉不是很大的压力
当然,要注意合理分词,不能自己随便乱拆,乱拆开打别说机器,就是人也会读不懂
头像
TeliuTe
论坛版主
帖子: 7668
注册时间: 2007-11-25 13:29
系统: 16/18/20/w7
来自: 新疆博乐
联系:

Re: 正在做一个开源输入法码表,看过“搜狗输入法核心词库”之后,想“盗用它的词库”的心都没有了

#3

帖子 TeliuTe » 2017-03-30 21:59

搜狗有个优点可以同步用户词库,这样优先显示自己的词库
头像
Ping-Wu
帖子: 1822
注册时间: 2012-11-14 9:34
系统: Debian 12

Re: 正在做一个开源输入法码表,看过“搜狗输入法核心词库”之后,想“盗用它的词库”的心都没有了

#4

帖子 Ping-Wu » 2017-03-31 0:51

TeliuTe 写了:搜狗有个优点可以同步用户词库,这样优先显示自己的词库
有一段时间,我们统一使用搜狗/fcitx,不过因为碰到一些稳定度的问题,决定不再“无事惹尘埃“(我们的学员们在技术及中文方面都是菜鸟),全盘转到ibus-pinyin。一年多来,还没有碰到任何问题。(Knock on Wood!)

当然啦,输入法是一个相当personal的事,我也不敢奢望论坛的大牛们能够对我们提供支持,放一点时间到ibus-pinyin上。 :em06

有一位朋友跟我提到,搜狗因为搜集(cache)用户输进去的词库,在隐私甚至安全方面可能要注意一下。事实如何,不了解,也没有兴趣去了解。不过我倒是看过搜狗的一个专利,让用户对自己的cache加密(encryption)。
谢宝良
帖子: 1983
注册时间: 2010-05-01 21:23

Re: 正在做一个开源输入法码表,看过“搜狗输入法核心词库”之后,想“盗用它的词库”的心都没有了

#5

帖子 谢宝良 » 2017-03-31 9:34

Ping-Wu 写了:
TeliuTe 写了:搜狗有个优点可以同步用户词库,这样优先显示自己的词库
有一段时间,我们统一使用搜狗/fcitx,不过因为碰到一些稳定度的问题,决定不再“无事惹尘埃“(我们的学员们在技术及中文方面都是菜鸟),全盘转到ibus-pinyin。一年多来,还没有碰到任何问题。(Knock on Wood!)

当然啦,输入法是一个相当personal的事,我也不敢奢望论坛的大牛们能够对我们提供支持,放一点时间到ibus-pinyin上。 :em06

有一位朋友跟我提到,搜狗因为搜集(cache)用户输进去的词库,在隐私甚至安全方面可能要注意一下。事实如何,不了解,也没有兴趣去了解。不过我倒是看过搜狗的一个专利,让用户对自己的cache加密(encryption)。
小小输入法也能加密。甚至个人的部分隐私数据,都可加密。
智能输入法,词库大是理所当然的,想小就自己编,使用带码的输入法。
小小输入法也能同步,手机,电脑等都能同步。如果会点脚本,自己搞个码表,使用是非常爽的事情。
头像
Ping-Wu
帖子: 1822
注册时间: 2012-11-14 9:34
系统: Debian 12

Re: 正在做一个开源输入法码表,看过“搜狗输入法核心词库”之后,想“盗用它的词库”的心都没有了

#6

帖子 Ping-Wu » 2017-04-01 4:23

谢宝良 写了:
Ping-Wu 写了:
TeliuTe 写了:搜狗有个优点可以同步用户词库,这样优先显示自己的词库
有一段时间,我们统一使用搜狗/fcitx,不过因为碰到一些稳定度的问题,决定不再“无事惹尘埃“(我们的学员们在技术及中文方面都是菜鸟),全盘转到ibus-pinyin。一年多来,还没有碰到任何问题。(Knock on Wood!)

当然啦,输入法是一个相当personal的事,我也不敢奢望论坛的大牛们能够对我们提供支持,放一点时间到ibus-pinyin上。 :em06

有一位朋友跟我提到,搜狗因为搜集(cache)用户输进去的词库,在隐私甚至安全方面可能要注意一下。事实如何,不了解,也没有兴趣去了解。不过我倒是看过搜狗的一个专利,让用户对自己的cache加密(encryption)。
小小输入法也能加密。甚至个人的部分隐私数据,都可加密。
智能输入法,词库大是理所当然的,想小就自己编,使用带码的输入法。
小小输入法也能同步,手机,电脑等都能同步。如果会点脚本,自己搞个码表,使用是非常爽的事情。
我有一些徒弟跟我发誓,他们使用像“同花顺”之类的玩股软件时,输入的资料一定被网站cache过去了。因为每次好不容易找到一个珍藏不露的好股票,正想进场就会被炒起来了。在这个“大资料库”的时代,cache的收集者不见得会直接使用我们的资料,但会被拿去拍卖(clearing house)。把cache资料跟IP地址连在一起也是很容易的事。
回复