Ubuntu中文论坛

发表于： **2010-01-06 13:42**

#!/bin/bash
#与朋友们共享！如果大家有好的修改意见，欢迎给我留言。ubuntu.org.cn centerpoint 感谢irc#ubuntu-cn iGoogle等大牛的帮助。欢迎留言指正。
#功能：本程序可以把html,htm网页文件转换成txt文本。
#用法：maxdepth 跟的数是目录深度，1为本目录。把本文件保存为h2t.sh,把权限设为“可执行”，然后复制到要转换的html文件目录。在命令行下cd到那个目录。
#执行 ./h2t.sh 即可。
#作者：centerpoint 2010.1.6

#扫描的文件类型。默认htm,html
>files.mybak
find ./ -maxdepth 1 -name '*.htm'>>files.mybak
find ./ -maxdepth 1 -name '*.html'>>files.mybak
myi=0
while read line
do
filename="${line##*/}";
myi=`echo "$myi+1"|bc`
echo "************************$myi***************************"
ls -sh "${filename}"
w3m -dump "${filename}">"${filename}.txt"
ls -sh "${filename}.txt"
done < files.mybak
rm files.mybak

发表于： **2010-01-15 13:41**

支持，是用w3m的转文本功能吧

发表于： **2010-01-15 14:01**

练习下够了。现成的都有。

发表于： **2010-01-15 16:42**

用c做练习比较好

发表于： **2010-08-09 21:49**

eexpress 写了：练习下够了。现成的都有。

html2text

Ubuntu中文论坛

ubuntu linux下批量转换html文件到txt的脚本习作

ubuntu linux下批量转换html文件到txt的脚本习作

Re: ubuntu linux下批量转换html文件到txt的脚本习作

Re: ubuntu linux下批量转换html文件到txt的脚本习作

Re: ubuntu linux下批量转换html文件到txt的脚本习作

Re: ubuntu linux下批量转换html文件到txt的脚本习作