分页: 2 / 2
发表于 : 2008-07-01 15:08
由 RegentW
PS: RMRB1_utf8.TXT用gvim可以打开
发表于 : 2008-07-01 15:25
由 bones7456
我也见过这种文件,多半是被N种编辑器编辑过的,里面有部分是uft8,有部分是gbk的,所以才乱了...
发表于 : 2008-07-01 15:39
由 BigSnake.NET
Surrounded by/intermixed with non-text data
???
发表于 : 2008-07-01 17:33
由 RegentW
bones7456 写了:我也见过这种文件,多半是被N种编辑器编辑过的,里面有部分是uft8,有部分是gbk的,所以才乱了...
可能吧,这个文件是搜集N多报刊文章后合并在一起构成的文本库
发表于 : 2008-07-01 17:34
由 RegentW
BigSnake.NET 写了:Surrounded by/intermixed with non-text data
???
文件里存在少量奇怪的字符
Re: 文本内容编码转换
发表于 : 2008-11-28 22:42
由 sherlockwesker
我也有类似问题啊~
enconv -L zh_CN -x UTF-8 经济谋.pdf
结果是:Cannot convert `经济谋.pdf' from unknown encoding
但是又用命令:convmv -f GBK -t UTF-8 --notest 经济谋.pdf
结果却是:Your Perl version has fleas #37757 #49830
Skipping, already UTF-8: ./经济谋.pdf
Ready!
再用命令:enca 经济谋.pdf
结果是:Unrecognized encoding
还有错误信息(参数忘了),显示的是:Failure reason: No clear winner.
自己都快崩溃了~这到底是怎么回事啊?折腾了好几天,仍然没用,但是乱码文件的内容打开后显示正常,网上说可能是挂载分区的问题,不过自己电脑里只有ubuntu一个系统,所有分区的格式都是ext3的,自己着实纳闷~ 期望各位大虾指点迷津啊~
Re: 文本内容编码转换
发表于 : 2008-11-29 13:44
由 sherlockwesker
难道是我的locale问题?我的locale是
LANG=en_US.UTF-8
LC_CTYPE=zh_CN.UTF-8
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=
Re: 文本内容编码转换
发表于 : 2009-09-20 14:44
由 v_han
mark
Re: 文本内容编码转换
发表于 : 2009-09-21 10:24
由 xzap
代码: 全选
iconv -c -f GB18030 -t UTF-8 RMRB1.TXT >RMRB1_utf8.TXT