求助:Ubuntu的sort命令在处理中文时出现问题
发表于 : 2010-03-19 14:23
在搜索引擎分词后建立索引过程中,我用到了sort 命令,希望通过这个命令将文件中一样的词放在一起,文档格式如下
罚款/vi 1
违法/vn 1
所得/n 1
没收/v 1
违法/vn 1
所得/n 1
规定/n 1
冒用/v 1
居民/n 1
表示为:词语/词性 出现的文档编号
希望通过sort达到这种效果
所得/n 1
所得/n 1
居民/n 1
居民/n 1
居民/n 1
囗囗/n 1
但是在Ubuntu下使用后产生了很多相同的词语却不在一起的问题
居民/n 1
囗囗/n 1
机关/n 1
所得/n 1
所得/n 1
居民/n 1
居民/n 1
居民/n 1
囗囗/n 1
机关/n 1
在Redhat中不会出现这种情况,求助
罚款/vi 1
违法/vn 1
所得/n 1
没收/v 1
违法/vn 1
所得/n 1
规定/n 1
冒用/v 1
居民/n 1
表示为:词语/词性 出现的文档编号
希望通过sort达到这种效果
所得/n 1
所得/n 1
居民/n 1
居民/n 1
居民/n 1
囗囗/n 1
但是在Ubuntu下使用后产生了很多相同的词语却不在一起的问题
居民/n 1
囗囗/n 1
机关/n 1
所得/n 1
所得/n 1
居民/n 1
居民/n 1
居民/n 1
囗囗/n 1
机关/n 1
在Redhat中不会出现这种情况,求助