求助:Ubuntu的sort命令在处理中文时出现问题

sh/bash/dash/ksh/zsh等Shell脚本
回复
hahanizhu
帖子: 1
注册时间: 2010-03-19 14:21

求助:Ubuntu的sort命令在处理中文时出现问题

#1

帖子 hahanizhu » 2010-03-19 14:23

在搜索引擎分词后建立索引过程中,我用到了sort 命令,希望通过这个命令将文件中一样的词放在一起,文档格式如下
罚款/vi 1
违法/vn 1
所得/n 1
没收/v 1
违法/vn 1
所得/n 1
规定/n 1
冒用/v 1
居民/n 1
表示为:词语/词性 出现的文档编号
希望通过sort达到这种效果
所得/n 1
所得/n 1
居民/n 1
居民/n 1
居民/n 1
囗囗/n 1
但是在Ubuntu下使用后产生了很多相同的词语却不在一起的问题
居民/n 1
囗囗/n 1
机关/n 1
所得/n 1
所得/n 1
居民/n 1
居民/n 1
居民/n 1
囗囗/n 1
机关/n 1
在Redhat中不会出现这种情况,求助
头像
bones7456
帖子: 8495
注册时间: 2006-04-12 20:05
来自: 杭州
联系:

Re: 求助:Ubuntu的sort命令在处理中文时出现问题

#2

帖子 bones7456 » 2010-03-19 14:33

$ echo '罚款/vi 1
> 违法/vn 1
> 所得/n 1
> 没收/v 1
> 违法/vn 1
> 所得/n 1
> 规定/n 1
> 冒用/v 1
> 居民/n 1' | sort
罚款/vi 1
规定/n 1
居民/n 1
冒用/v 1
没收/v 1
所得/n 1
所得/n 1
违法/vn 1
违法/vn 1
不会啊~
关注我的blog: ε==3
回复