文本内容编码转换

sh/bash/dash/ksh/zsh等Shell脚本
头像
RegentW
帖子: 1486
注册时间: 2007-02-27 21:47
来自: NN

#16

帖子 RegentW » 2008-07-01 15:08

PS: RMRB1_utf8.TXT用gvim可以打开
Core i5, 512G + SSD 20G, DDRIII 8G
头像
bones7456
帖子: 8495
注册时间: 2006-04-12 20:05
来自: 杭州
联系:

#17

帖子 bones7456 » 2008-07-01 15:25

我也见过这种文件,多半是被N种编辑器编辑过的,里面有部分是uft8,有部分是gbk的,所以才乱了...
关注我的blog: ε==3
头像
BigSnake.NET
帖子: 12522
注册时间: 2006-07-02 11:16
来自: 廣州
联系:

#18

帖子 BigSnake.NET » 2008-07-01 15:39

Surrounded by/intermixed with non-text data

???
^_^ ~~~
要理解递归,首先要理解递归。

地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。
头像
RegentW
帖子: 1486
注册时间: 2007-02-27 21:47
来自: NN

#19

帖子 RegentW » 2008-07-01 17:33

bones7456 写了:我也见过这种文件,多半是被N种编辑器编辑过的,里面有部分是uft8,有部分是gbk的,所以才乱了...
可能吧,这个文件是搜集N多报刊文章后合并在一起构成的文本库
Core i5, 512G + SSD 20G, DDRIII 8G
头像
RegentW
帖子: 1486
注册时间: 2007-02-27 21:47
来自: NN

#20

帖子 RegentW » 2008-07-01 17:34

BigSnake.NET 写了:Surrounded by/intermixed with non-text data

???
文件里存在少量奇怪的字符
Core i5, 512G + SSD 20G, DDRIII 8G
sherlockwesker
帖子: 58
注册时间: 2008-10-17 14:23

Re: 文本内容编码转换

#21

帖子 sherlockwesker » 2008-11-28 22:42

我也有类似问题啊~
enconv -L zh_CN -x UTF-8 经济谋.pdf
结果是:Cannot convert `经济谋.pdf' from unknown encoding
但是又用命令:convmv -f GBK -t UTF-8 --notest 经济谋.pdf
结果却是:Your Perl version has fleas #37757 #49830
Skipping, already UTF-8: ./经济谋.pdf
Ready!
再用命令:enca 经济谋.pdf
结果是:Unrecognized encoding
还有错误信息(参数忘了),显示的是:Failure reason: No clear winner.
自己都快崩溃了~这到底是怎么回事啊?折腾了好几天,仍然没用,但是乱码文件的内容打开后显示正常,网上说可能是挂载分区的问题,不过自己电脑里只有ubuntu一个系统,所有分区的格式都是ext3的,自己着实纳闷~ 期望各位大虾指点迷津啊~
I will be a hacker!
sherlockwesker
帖子: 58
注册时间: 2008-10-17 14:23

Re: 文本内容编码转换

#22

帖子 sherlockwesker » 2008-11-29 13:44

难道是我的locale问题?我的locale是
LANG=en_US.UTF-8
LC_CTYPE=zh_CN.UTF-8
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=
I will be a hacker!
头像
v_han
帖子: 7
注册时间: 2009-09-20 14:42

Re: 文本内容编码转换

#23

帖子 v_han » 2009-09-20 14:44

mark
家的感觉
头像
xzap
帖子: 256
注册时间: 2006-08-24 21:25

Re: 文本内容编码转换

#24

帖子 xzap » 2009-09-21 10:24

代码: 全选

iconv -c -f GB18030 -t UTF-8 RMRB1.TXT >RMRB1_utf8.TXT

回复