搜狗scel词库解析(转fcitx词库格式)

系统字体配置、中文显示和输入法问题
回复
t3swing
帖子: 1028
注册时间: 2008-11-01 21:42
来自: 树下板凳

搜狗scel词库解析(转fcitx词库格式)

#1

帖子 t3swing » 2010-01-01 15:56

以前也有人写过搜狗txt词库转fcitx词库的程序,不过还是有些不完善,在多音字处理方面有比较大的缺陷,这次我通过分析搜狗scel专用格式文件,用程序解析成fcitx词库格式,由于scel词库里面信息比较完整,包含注音 ,字词优先级,词库信息等内容,解析出来的东西更完整 ,准确性更高 ,所以又以scel格式为基础做了点转fcitx的重复工作

使用方法:
./sgscel2fcitx sougou.scel
生成的sg_pyPharese.org文件 即为fcitx格式的
如何生成到.mb文件 自己去找吧,懒得找了
sw@~/mypro/utfconvert$./sgscel2fcitx 2.scel
字库名称:古诗词名句【官方推荐】
字库类别:文学
字库信息:包含了绝大多数的古诗词名句
字库示例:为人性僻耽佳句 读书破万卷 奇文共欣赏 文章千古事
sw@~/mypro/utfconvert$head sg_pyPhrase.org
ai'hao'you'lai'luo'bi'nan 爱好由来落笔难
ai'min'sheng'zhi'duo'jian 哀民生之多艰
ai'shang'ceng'lou 爱上层楼
ai'zi'xin'wu'jin 爱子心无尽
an'an'sheng'tian'ji 黯黯生天际
an'bu'wang'wei 安不忘危
an'de'guang'sha'qian'wan'jian 安得广厦千万间
an'di'hua'shao 暗滴花梢
an'neng'cui'mei'zhe'yao'shi'quan'gui 安能摧眉折腰事权贵
an'ran'xiao'hun'zhe 黯然销魂者
sw@~/mypro/utfconvert$
如果鱼王能够增加多词库支持那就太好了 ,直接可以把.scel转成.mb格式了

关于版权问题 ,sg词库反正也是免费 ,这里不过是做点 兼容工作,应该没什么问题

俺也只测试了几个词库,bug难免,有问题在这里说吧
sgscelparse.tar.gz
(6.54 KiB) 已下载 1020 次
民族的脊梁,是踏实做事的人,非只知道骂街的泼妇。
头像
牛奶夹心饼
帖子: 513
注册时间: 2009-09-14 0:46
来自: 广东惠州

Re: 搜狗scel词库解析(转fcitx词库格式)

#2

帖子 牛奶夹心饼 » 2010-01-05 8:57

支持楼主的工作,还有fcitx有个毛病,会加载整个词库到内存,我一开始打字的时候,内存就增加了几十M(用的是论坛里面的ibus词库),最后我觉得楼主说的
关于版权问题 ,sg词库反正也是免费 ,这里不过是做点 兼容工作,应该没什么问题
可能有点问题,版权和免费没有必然联系吧!
AMD3800+, 1GX2 ,500G
Ubuntu 10.04| openbox+tint2+pcmanfm+nitrogen+chrome+xcompmgr

----------再也不换头像----------
t3swing
帖子: 1028
注册时间: 2008-11-01 21:42
来自: 树下板凳

Re: 搜狗scel词库解析(转fcitx词库格式)

#3

帖子 t3swing » 2010-01-05 15:02

fcitx全部加载到内存的问题,你向鱼王反映吧,他自己也注意到了这个问题(以前帖子他也说过以后考虑). 不加载到内存就要读盘,这个是一对矛盾,看来鱼王又要出一个选项了,来选择是全部加载到内存或者词库小于多少就全部加载到内存
版权和免费没有必然联系吧
我只是指使用免费的sg词库在版权方面没什么问题(即没侵权),就象播放器 ,不内置解码器,不管用户提供给他的是什么解码器,他都能使用,只要发布时没有内置,版权应该没问题

我现在只是想为fcitx增加一个简单的词库增减功能的工具(内置到配置工具中),能识别比较常见的词库格式(包括sg词库,但不限于搜狗),所以还是要考虑一下词库的版权问题(即兼容他是否侵权),以免造成不必要的麻烦.当然,这只是我觉得,不过也也希望大家说说自己的看法.

制作词库增减工具,还有个问题,需要鱼王添加fcitx对多词库功能支持,否则词库将无法管理(注册机制不好实现,词库边界划分麻烦,词库稳定性也受影响),有了多词库支持的话,不需要先生成pyPharese.org文本文件,直接生成单个的 .mb文件就可以了
民族的脊梁,是踏实做事的人,非只知道骂街的泼妇。
头像
wlunan
帖子: 119
注册时间: 2009-10-26 2:18
联系:

Re: 搜狗scel词库解析(转fcitx词库格式)

#4

帖子 wlunan » 2010-01-05 15:48

你牛B破解人家的词库了
这次我完全不羡慕搜狗了~ 爽
头像
wlunan
帖子: 119
注册时间: 2009-10-26 2:18
联系:

Re: 搜狗scel词库解析(转fcitx词库格式)

#5

帖子 wlunan » 2010-04-08 0:56

楼主 ,, 能否改改程序
fcitx 已经改为utf8编码 ,
能否 把程序改为直接输出为utf8编码的词库
t3swing
帖子: 1028
注册时间: 2008-11-01 21:42
来自: 树下板凳

Re: 搜狗scel词库解析(转fcitx词库格式)

#6

帖子 t3swing » 2010-04-09 13:29

现在没搞了 ,黑手不是搞了个java版的么(本版置顶) ?还是词频的问题搞不定,没时间研究了
和utf-8编码没什么关系的 ,反正都是用fprintf输出的 ,在linux下应该就是utf-8的,应该是词库制作工具的事情了
民族的脊梁,是踏实做事的人,非只知道骂街的泼妇。
回复