120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品 (附加说明)

系统字体配置、中文显示和输入法问题
回复
头像
hubert_star
论坛版主
帖子: 5373
注册时间: 2007-10-29 22:12
系统: OSX 10.9 + Ub 1304
来自: 江苏南京

120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品 (附加说明)

#1

帖子 hubert_star » 2010-01-13 19:39


更新:

http://code.google.com/p/hslinuxextra/downloads/list

上面的地址中,增加了三个词库文件和工程的源代码,有兴趣的同学可以自己去搞搞。

三个词库文件分别为:精简的词库、较全面的词库和非常全面的词库,自己下载解压后使用。

另外,很多人说词频不对,我现在调整了一下逻辑:ibus中词频信息没做任何变化,而fcitx中原有词频是较高等级而新词等级较低。

ibus pinyin要求最低为1.3.0,这个大家注意一下。

大家需要注意的是,不同版本甚至同一个版本不同发行版上词库db的目录可能不一样

请根据您自己的发行版和版本查找对应的文件覆盖

另外,经过与ibus开发者协商,ibus-pinyin的词库查找规则做了一些更改,只要在词库目录(就是有一个.db文件的那个目录,一般是/usr/share/ibus-pinyin/db目录)把新词库复制过来并改名为local.db就可以使用了,如果感觉词库不好直接删除掉local.db就可以让ibus使用原来的词库。




这两天,真的很累,没有一刻闲着的,公司的事情太多,太累了。

忙着无聊的时候,去搜狐的输入法网站上转了转,发现它竟然能下输入法词库文件

这个词库,utf-16编码的,反向出来以后,我给导入到了ibus拼音输入法里面了

唉,大家别怪我

去下面这个地址下载下来

http://code.google.com/p/hslinuxextra/d ... android.7z

或者直接点击链接:

http://hslinuxextra.googlecode.com/files/android.7z

然后解压,你应该会看到一个android.db文件,把这个文件放到/usr/share/ibus-pinyin/db里面,覆盖同名的db文件

不过有的同学ibus-pinyin的词库是openphrase的,反正这个目录里面只有一个db文件,你用你下载解压的那个文件改名后覆盖掉就行了

覆盖以后,你把ibus重启一下,如果你能打出下面的这个词组,说明生效了:

代码: 全选

弗雷德霍姆行列式
我的这个词库,基于ibus原有的android词库文件,另外增加了搜狐的下列词库:

代码: 全选


IT计算机 电脑词汇大全        历史名人大全  搜狗标准大词库        医学词汇大全
财会词汇大全          电子计算机通信专业术语农业词汇大全  搜狗精选词库          艺术家小辞海
常用餐饮词汇【官方推荐】电子术语大全        农业类词库    搜狗万能词库          音乐大杂烩
常用植物名            动物词汇大全        农业系统扩充词库唐诗宋词成语俗语      饮食词汇大全
虫蛇类名词            概率与数理统计词库pro 全面词库      网络流行新词          影视歌名库
船舶港口词汇大全      化学词汇大全        诗词名句大全  网上最全的11.44万全国四级行政区划词库职业作家词库
地理地质词汇大全      机械工程词汇大全    书法词库大全  药品名称大全          最详细的全国地名大全
地质大词典            计算机名词          搜狗标准词库  医学词汇大全 (1)



我知道我的行为不妥,但是我的目的是让大家能学到新的词语

望大家勿怪

PS:我发现这个词库虽然比较大,但是实际占用内存不多,ibus的相应也挺迅速


---------------------------我是华丽的分割线-----------------------------------

另外,我增加了fcitx的词库:pyPhrase.org pyphrase.mb pybase.mb

http://hslinuxextra.googlecode.com/files/fcitx.7z

下载并解压

其中pyphrase.mb pybase.mb是编译好的词库,连同pyPhrase.org直接覆盖已经安装好的fcitx中的同名文件即可:/usr/share/fcitx/data中(把解压后的三个文件同时覆盖fcitx原有文件)

pyPhrase.org是源文件,编译时覆盖源代码目录的同名文件,也同样会生成pyphrase.mb。

请同学们多加使用

另外,由于ibus使用的sql,所以兼容性问题不大,但是对于fcitx来说可能会有问题出现,如果你的不能用,那么用下面的命令自己根据pyPhrase来做mb文件:

代码: 全选

createPYMB /usr/share/fcitx/data/gbkpy.org ./pyPhrase.org
把生成的mb文件连同pyPhrase.org覆盖掉fcitx安装的data文件就可以了
[/b]
佛经说,人有八苦: 生、老、病、死、求不得、怨憎、爱别离、五阴盛 故我苦!
圣经说,人有七罪: 饕餮、贪婪、懒惰、淫欲、傲慢、嫉妒和暴怒  故我有罪!

我这篇帖子里面没有任何攻击我们伟大的中华人民共和国政府和任劳任怨的人民公仆(和本论坛高素质的版主)的文字和含义;

特此声明!

有些事,我们明知道是错的,也要去坚持,因为不甘心;有些人,我们明知道是爱的,也要去放弃,因为没结局;有时候,我们明知道没路了,却还在前行,因为习惯了。

欢迎来我的新浪微博@me
头像
hubertstar
帖子: 64
注册时间: 2007-12-27 20:47

Re: ibus拼音输入法词库:个人无聊的作品

#2

帖子 hubertstar » 2010-01-13 19:53

楼主,你很过份,你不知道那些词库只能用于m$ win下面的sougou拼音吗?

请在24小时之内删除您的文件!
头像
hubert_star
论坛版主
帖子: 5373
注册时间: 2007-10-29 22:12
系统: OSX 10.9 + Ub 1304
来自: 江苏南京

Re: ibus拼音输入法词库:个人无聊的作品

#3

帖子 hubert_star » 2010-01-13 19:54

不好意思

我刚刚去删了一下

发现googlecode上面传上去就不让删除了,咋办?
佛经说,人有八苦: 生、老、病、死、求不得、怨憎、爱别离、五阴盛 故我苦!
圣经说,人有七罪: 饕餮、贪婪、懒惰、淫欲、傲慢、嫉妒和暴怒  故我有罪!

我这篇帖子里面没有任何攻击我们伟大的中华人民共和国政府和任劳任怨的人民公仆(和本论坛高素质的版主)的文字和含义;

特此声明!

有些事,我们明知道是错的,也要去坚持,因为不甘心;有些人,我们明知道是爱的,也要去放弃,因为没结局;有时候,我们明知道没路了,却还在前行,因为习惯了。

欢迎来我的新浪微博@me
头像
tenzu
论坛版主
帖子: 36924
注册时间: 2008-11-21 20:26

Re: ibus拼音输入法词库:个人无聊的作品

#4

帖子 tenzu » 2010-01-13 19:56

二楼。。。
antaur
帖子: 16
注册时间: 2007-07-26 9:28

Re: ibus拼音输入法词库:个人无聊的作品

#5

帖子 antaur » 2010-01-13 20:07

我的/usr/share/ibus-pinyin/没有db这个文件夹,楼主说ibus-pinyin的词库是openphrase的,是什么意思,应该覆盖在哪里阿?
头像
jxhow
帖子: 5859
注册时间: 2008-10-24 22:02
来自: 浙江

Re: ibus拼音输入法词库:个人无聊的作品

#6

帖子 jxhow » 2010-01-13 20:07

:em04
双簧呢


什么时候更新fcitx的词库呢
很期待!
http://sb.google.com/ 提问前 请在右上角搜索一下
头像
hubert_star
论坛版主
帖子: 5373
注册时间: 2007-10-29 22:12
系统: OSX 10.9 + Ub 1304
来自: 江苏南京

Re: ibus拼音输入法词库:个人无聊的作品

#7

帖子 hubert_star » 2010-01-13 20:11

要fcitx的是吧?

我跑一下,晚上发上来

不过大家要有心里准备,说不定我回头睡觉去了
佛经说,人有八苦: 生、老、病、死、求不得、怨憎、爱别离、五阴盛 故我苦!
圣经说,人有七罪: 饕餮、贪婪、懒惰、淫欲、傲慢、嫉妒和暴怒  故我有罪!

我这篇帖子里面没有任何攻击我们伟大的中华人民共和国政府和任劳任怨的人民公仆(和本论坛高素质的版主)的文字和含义;

特此声明!

有些事,我们明知道是错的,也要去坚持,因为不甘心;有些人,我们明知道是爱的,也要去放弃,因为没结局;有时候,我们明知道没路了,却还在前行,因为习惯了。

欢迎来我的新浪微博@me
头像
jxhow
帖子: 5859
注册时间: 2008-10-24 22:02
来自: 浙江

Re: ibus拼音输入法词库:个人无聊的作品

#8

帖子 jxhow » 2010-01-13 20:12

:em11 :em11 :em11
http://sb.google.com/ 提问前 请在右上角搜索一下
头像
jxhow
帖子: 5859
注册时间: 2008-10-24 22:02
来自: 浙江

Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品

#9

帖子 jxhow » 2010-01-13 21:27

:em11 :em11 再来支持 明天再试 :em04
http://sb.google.com/ 提问前 请在右上角搜索一下
头像
leeaman
帖子: 30702
注册时间: 2007-02-02 18:14
系统: debian sid

Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品

#10

帖子 leeaman » 2010-01-13 21:32

严重bs~~~
醉了星星,醉月亮●●●●●The Long Way To Go(*^_^*)
头像
aric286
帖子: 960
注册时间: 2007-12-03 9:54
联系:

Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品

#11

帖子 aric286 » 2010-01-13 22:23

我这里IBUS用不成阿,我覆盖的是/usr/share/ibus-pinyin/engine下的py.db
头像
highwind
帖子: 1362
注册时间: 2008-09-05 23:31
系统: LinuxMint17

Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品

#12

帖子 highwind » 2010-01-13 22:26

还挺大的,这么多词不会让ibus变慢吧?
delectate
帖子: 18311
注册时间: 2008-01-09 22:41

Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品

#13

帖子 delectate » 2010-01-13 22:37

杯具,i failed
头像
leeaman
帖子: 30702
注册时间: 2007-02-02 18:14
系统: debian sid

Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品

#14

帖子 leeaman » 2010-01-13 22:40

用了140mb的内存...
醉了星星,醉月亮●●●●●The Long Way To Go(*^_^*)
头像
bobobo80
帖子: 841
注册时间: 2007-12-09 22:36
联系:

Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品

#15

帖子 bobobo80 » 2010-01-13 23:07

leeaman 写了:用了140mb的内存...
汗了。不敢试了。
回复