ubuntu linux下批量转换html文件到txt的脚本习作
发表于 : 2010-01-06 13:42
#!/bin/bash
#与朋友们共享!如果大家有好的修改意见,欢迎给我留言。ubuntu.org.cn centerpoint 感谢irc#ubuntu-cn iGoogle等大牛的帮助。欢迎留言指正。
#功能:本程序可以把html,htm网页文件转换成txt文本。
#用法:maxdepth 跟的数是目录深度,1为本目录。把本文件保存为h2t.sh,把权限设为“可执行”,然后复制到要转换的html文件目录。在命令行下cd到那个目录。
#执行 ./h2t.sh 即可。
#作者:centerpoint 2010.1.6
#扫描的文件类型。默认htm,html
>files.mybak
find ./ -maxdepth 1 -name '*.htm'>>files.mybak
find ./ -maxdepth 1 -name '*.html'>>files.mybak
myi=0
while read line
do
filename="${line##*/}";
myi=`echo "$myi+1"|bc`
echo "************************$myi***************************"
ls -sh "${filename}"
w3m -dump "${filename}">"${filename}.txt"
ls -sh "${filename}.txt"
done < files.mybak
rm files.mybak
#与朋友们共享!如果大家有好的修改意见,欢迎给我留言。ubuntu.org.cn centerpoint 感谢irc#ubuntu-cn iGoogle等大牛的帮助。欢迎留言指正。
#功能:本程序可以把html,htm网页文件转换成txt文本。
#用法:maxdepth 跟的数是目录深度,1为本目录。把本文件保存为h2t.sh,把权限设为“可执行”,然后复制到要转换的html文件目录。在命令行下cd到那个目录。
#执行 ./h2t.sh 即可。
#作者:centerpoint 2010.1.6
#扫描的文件类型。默认htm,html
>files.mybak
find ./ -maxdepth 1 -name '*.htm'>>files.mybak
find ./ -maxdepth 1 -name '*.html'>>files.mybak
myi=0
while read line
do
filename="${line##*/}";
myi=`echo "$myi+1"|bc`
echo "************************$myi***************************"
ls -sh "${filename}"
w3m -dump "${filename}">"${filename}.txt"
ls -sh "${filename}.txt"
done < files.mybak
rm files.mybak