分页: 1 / 2

用一个脚本去除文件里的所有汉字

发表于 : 2008-01-16 0:58
qiang_liu8183
她刚用Ubuntu三个多月,刚才突然问我怎么用脚本去掉一个文件里的所有汉字,真把我问住了,这要求是不是有点变态啊?能实现吗?

发表于 : 2008-01-16 1:21
xiooli
保留所有的字母和符号不就行了吗?

发表于 : 2008-01-16 5:46
qiang_liu8183
xiooli 写了:保留所有的字母和符号不就行了吗?
具体应该怎么写? :em23

发表于 : 2008-01-16 5:50
stlxv
qiang_liu8183 写了:
xiooli 写了:保留所有的字母和符号不就行了吗?
具体应该怎么写? :em23
你要去掉什么样子的中文?保留什么样子的文字!?

这个问题和具体编码有关,得说清楚了才知道怎么做。

要不再教你一招:把系统所有含有中文的字体全部删除,然后再打开你的那个要删掉所有中文的文件看看(这方法WORD有效,OOo不知道有效不) 8) 8) 8)

发表于 : 2008-01-16 5:55
laborer

代码: 全选

$ echo "测试123.a b c测试" | iconv -c -t ascii
123.a b c

发表于 : 2008-01-16 8:35
eexpress
标题不好哦。
那外国佬的ed2kopera的脚本,就是去掉中文的。论坛有。

发表于 : 2008-01-16 8:55
qiang_liu8183
stlxv 写了:
qiang_liu8183 写了:
xiooli 写了:保留所有的字母和符号不就行了吗?
具体应该怎么写? :em23
你要去掉什么样子的中文?保留什么样子的文字!?

这个问题和具体编码有关,得说清楚了才知道怎么做。

要不再教你一招:把系统所有含有中文的字体全部删除,然后再打开你的那个要删掉所有中文的文件看看(这方法WORD有效,OOo不知道有效不) 8) 8) 8)
去掉一个文件里所有的中文!其它文字保留

发表于 : 2008-01-16 8:57
qiang_liu8183
eexpress 写了:标题不好哦。
那外国佬的ed2kopera的脚本,就是去掉中文的。论坛有。
标题不好?怎么讲?ee知道那个脚本在哪里吗?有链接没?

发表于 : 2008-01-16 8:59
qiang_liu8183
stlxv 写了:要不再教你一招:把系统所有含有中文的字体全部删除,然后再打开你的那个要删掉所有中文的文件看看(这方法WORD有效,OOo不知道有效不) 8) 8) 8)
这偏方比较变态哦~~~ :em27

发表于 : 2008-01-16 9:05
eexpress
ed2kopera nc 这就是关键词。我不记得地址。我的那个早删除了。

发表于 : 2008-01-16 9:29
iblicf
tr -d '[\200-\377]' < ./src >target

before:
===============================================
43536454
EE 是猪头
o657465209842-94722983472389457#%$#%$^#%^#$
你好
我是谁
alsd阿三地方asd fa哈哈
alsd阿三地方asd fa哈哈
AAAAAAAAAABBBBBBBBBBBBBBBBB
~!@#$@#%#$%*%^&*^()_*)_
==============================================

after:
==============================================
43536454
EE
o657465209842-94722983472389457#%$#%$^#%^#$


alsdasd fa
alsdasd fa
AAAAAAAAAABBBBBBBBBBBBBBBBB
~!@#$@#%#$%*%^&*^()_*)_

发表于 : 2008-01-16 9:31
patrickhe
5楼的方法不是很好吗?

发表于 : 2008-01-24 22:10
icefireelf
最简单的方法:
strings 文件名
strings这个linux的内置命令就没考虑过支持汉字,因此完全达标.......

发表于 : 2008-01-24 22:12
BigSnake.NET
icefireelf 写了:最简单的方法:
strings 文件名
strings这个linux的内置命令就没考虑过支持汉字,因此完全达标.......
这招太狠了..

发表于 : 2008-01-24 22:21
iblicf
。。。呵呵,strings,这个贴挺有意思呢, ascii (128-255 ) 的 unicode 用来做多字节编码,我那个替换比较规矩,可惜 sed 不支持 !