120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品 (附加说明)
- hubert_star
- 论坛版主
- 帖子: 5373
- 注册时间: 2007-10-29 22:12
- 系统: OSX 10.9 + Ub 1304
- 来自: 江苏南京
Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品
都是用java来处理的
词频这个问题,对于单个的文件,有三个8位可能跟词频有关系,但是我发现这三处只有第一处有点实际意义,其他的都跟声韵母有关,所以就用了第一个8位。
另外,同一个词如果出现在不同的文件中,词频信息也是不一样的,按照最高值来处理
同时,以原有词库的词频优先
这样以来,能暂时解决词频的问题,毕竟输入法提供的词频信息还是比较有用的
词频这个问题,对于单个的文件,有三个8位可能跟词频有关系,但是我发现这三处只有第一处有点实际意义,其他的都跟声韵母有关,所以就用了第一个8位。
另外,同一个词如果出现在不同的文件中,词频信息也是不一样的,按照最高值来处理
同时,以原有词库的词频优先
这样以来,能暂时解决词频的问题,毕竟输入法提供的词频信息还是比较有用的
佛经说,人有八苦: 生、老、病、死、求不得、怨憎、爱别离、五阴盛 故我苦!
圣经说,人有七罪: 饕餮、贪婪、懒惰、淫欲、傲慢、嫉妒和暴怒 故我有罪!
我这篇帖子里面没有任何攻击我们伟大的中华人民共和国政府和任劳任怨的人民公仆(和本论坛高素质的版主)的文字和含义;
特此声明!
有些事,我们明知道是错的,也要去坚持,因为不甘心;有些人,我们明知道是爱的,也要去放弃,因为没结局;有时候,我们明知道没路了,却还在前行,因为习惯了。
欢迎来我的新浪微博@me
圣经说,人有七罪: 饕餮、贪婪、懒惰、淫欲、傲慢、嫉妒和暴怒 故我有罪!
我这篇帖子里面没有任何攻击我们伟大的中华人民共和国政府和任劳任怨的人民公仆(和本论坛高素质的版主)的文字和含义;
特此声明!
有些事,我们明知道是错的,也要去坚持,因为不甘心;有些人,我们明知道是爱的,也要去放弃,因为没结局;有时候,我们明知道没路了,却还在前行,因为习惯了。
欢迎来我的新浪微博@me
-
- 帖子: 104
- 注册时间: 2007-09-11 10:12
- 来自: Yunnan
Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品
ibus1.3.0在哪里?
我用ppa的源也只是,1.2.99,看了看http://code.google.com/p/ibus也只有1.2.0。
我用ppa的源也只是,1.2.99,看了看http://code.google.com/p/ibus也只有1.2.0。
********
人穷志短
马瘦毛长
********
人穷志短
马瘦毛长
********
- hubert_star
- 论坛版主
- 帖子: 5373
- 注册时间: 2007-10-29 22:12
- 系统: OSX 10.9 + Ub 1304
- 来自: 江苏南京
Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品
你安装后在配置界面的关于里面如果写1.3.0就表示对了
佛经说,人有八苦: 生、老、病、死、求不得、怨憎、爱别离、五阴盛 故我苦!
圣经说,人有七罪: 饕餮、贪婪、懒惰、淫欲、傲慢、嫉妒和暴怒 故我有罪!
我这篇帖子里面没有任何攻击我们伟大的中华人民共和国政府和任劳任怨的人民公仆(和本论坛高素质的版主)的文字和含义;
特此声明!
有些事,我们明知道是错的,也要去坚持,因为不甘心;有些人,我们明知道是爱的,也要去放弃,因为没结局;有时候,我们明知道没路了,却还在前行,因为习惯了。
欢迎来我的新浪微博@me
圣经说,人有七罪: 饕餮、贪婪、懒惰、淫欲、傲慢、嫉妒和暴怒 故我有罪!
我这篇帖子里面没有任何攻击我们伟大的中华人民共和国政府和任劳任怨的人民公仆(和本论坛高素质的版主)的文字和含义;
特此声明!
有些事,我们明知道是错的,也要去坚持,因为不甘心;有些人,我们明知道是爱的,也要去放弃,因为没结局;有时候,我们明知道没路了,却还在前行,因为习惯了。
欢迎来我的新浪微博@me
-
- 帖子: 104
- 注册时间: 2007-09-11 10:12
- 来自: Yunnan
-
- 帖子: 441
- 注册时间: 2007-01-28 0:51
Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品
这个词库相当不错啊,啥时ibus支持下在线更新,再融合下搜狗云输入法,嘿嘿……
- hubert_star
- 论坛版主
- 帖子: 5373
- 注册时间: 2007-10-29 22:12
- 系统: OSX 10.9 + Ub 1304
- 来自: 江苏南京
Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品
关于ibus方面的更新
在最新的ibus pinyin git中,经协商已经加入了一个识别本地词库的办法,也就是说,只要存在下面的文件,这个词库文件是优先被使用的,如果没有则使用原来的内置词库。
规则如下:
在/usr/share/ibus-pinyin/db 下面,如果有local.db这个文件,那么则个词库文件优先被使用
现在使用我提供的词库的同学如果是ibus-pinyin git版本的,只要把你们的词库重命名为local.db并放到这个文件夹里面就可以使用了,不需要覆盖原来的词库文件。
在最新的ibus pinyin git中,经协商已经加入了一个识别本地词库的办法,也就是说,只要存在下面的文件,这个词库文件是优先被使用的,如果没有则使用原来的内置词库。
规则如下:
在/usr/share/ibus-pinyin/db 下面,如果有local.db这个文件,那么则个词库文件优先被使用
现在使用我提供的词库的同学如果是ibus-pinyin git版本的,只要把你们的词库重命名为local.db并放到这个文件夹里面就可以使用了,不需要覆盖原来的词库文件。
佛经说,人有八苦: 生、老、病、死、求不得、怨憎、爱别离、五阴盛 故我苦!
圣经说,人有七罪: 饕餮、贪婪、懒惰、淫欲、傲慢、嫉妒和暴怒 故我有罪!
我这篇帖子里面没有任何攻击我们伟大的中华人民共和国政府和任劳任怨的人民公仆(和本论坛高素质的版主)的文字和含义;
特此声明!
有些事,我们明知道是错的,也要去坚持,因为不甘心;有些人,我们明知道是爱的,也要去放弃,因为没结局;有时候,我们明知道没路了,却还在前行,因为习惯了。
欢迎来我的新浪微博@me
圣经说,人有七罪: 饕餮、贪婪、懒惰、淫欲、傲慢、嫉妒和暴怒 故我有罪!
我这篇帖子里面没有任何攻击我们伟大的中华人民共和国政府和任劳任怨的人民公仆(和本论坛高素质的版主)的文字和含义;
特此声明!
有些事,我们明知道是错的,也要去坚持,因为不甘心;有些人,我们明知道是爱的,也要去放弃,因为没结局;有时候,我们明知道没路了,却还在前行,因为习惯了。
欢迎来我的新浪微博@me
-
- 帖子: 108
- 注册时间: 2010-01-21 23:09
Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品
升级了下iBUS,没有1.3的……、
第一次打出弗雷德火木行列式
自己选择弗雷德霍姆行列式,之后都能打出弗雷德霍姆行列式了~~~
第一次打出弗雷德火木行列式
自己选择弗雷德霍姆行列式,之后都能打出弗雷德霍姆行列式了~~~
-
- 帖子: 10
- 注册时间: 2008-07-08 9:42
Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品
已经用上了,谢谢楼主
-
- 帖子: 108
- 注册时间: 2010-01-21 23:09
Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品
不要乱说~~~bobobo80 写了:汗了。不敢试了。leeaman 写了:用了140mb的内存...
-
- 帖子: 22
- 注册时间: 2009-03-18 17:32
Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品
,亲自试验,可以,谢谢楼主。
- wangdu2002
- 帖子: 13284
- 注册时间: 2008-12-13 19:39
- 来自: 物华天宝人杰地灵
Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品
一段时间没泡U坛,黑手竟然又出新产品了。。。暂不用也顶之。
行到水穷处,坐看云起时。
海内生明月,天涯共此夕。
--------------------吾本独!
海内生明月,天涯共此夕。
--------------------吾本独!
- 6.1
- 帖子: 28
- 注册时间: 2006-08-30 10:12
- Leonador
- 帖子: 42
- 注册时间: 2008-04-29 8:44
Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品
相当不错
可以用 呼呼
- qike006
- 帖子: 43
- 注册时间: 2008-11-03 15:31
- 联系:
Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品
请问一下楼主
我的db目录中的open-phrase.db是个连接文件呀,指向的是/usr/share/pinyin-datebase/main.db
我是该替换那个main.db吗?
我的db目录中的open-phrase.db是个连接文件呀,指向的是/usr/share/pinyin-datebase/main.db
我是该替换那个main.db吗?
-
- 帖子: 163
- 注册时间: 2007-05-12 0:05
Re: 120余万的搜狗细胞词库-fcitx&ibus拼音输入法词库:个人无聊的作品
惭愧啊,还是在别的地方看到链接跑回来的,不得不说,lz做得词库,至少对我来说那是功德无量啊,而且搜狗的细胞词库不是说可以开放共享的吗?如果有版权问题的话再删除好了,我用的时候是直接覆盖的,不知道有没有及时生效,不过看起来内存占用只有30M,可能我重启以后就不是这样了,不过不管怎么说,小企鹅用起来好多了,可惜功能上还有很大的进步空间,希望小企鹅和楼主都能再接再厉,越做越好。