分页: 1 / 1

ubuntu linux下批量转换html文件到txt的脚本习作

发表于 : 2010-01-06 13:42
centerpoint
#!/bin/bash
#与朋友们共享!如果大家有好的修改意见,欢迎给我留言。ubuntu.org.cn centerpoint 感谢irc#ubuntu-cn iGoogle等大牛的帮助。欢迎留言指正。
#功能:本程序可以把html,htm网页文件转换成txt文本。
#用法:maxdepth 跟的数是目录深度,1为本目录。把本文件保存为h2t.sh,把权限设为“可执行”,然后复制到要转换的html文件目录。在命令行下cd到那个目录。
#执行 ./h2t.sh 即可。
#作者:centerpoint 2010.1.6

#扫描的文件类型。默认htm,html
>files.mybak
find ./ -maxdepth 1 -name '*.htm'>>files.mybak
find ./ -maxdepth 1 -name '*.html'>>files.mybak
myi=0
while read line
do
filename="${line##*/}";
myi=`echo "$myi+1"|bc`
echo "************************$myi***************************"
ls -sh "${filename}"
w3m -dump "${filename}">"${filename}.txt"
ls -sh "${filename}.txt"
done < files.mybak
rm files.mybak

Re: ubuntu linux下批量转换html文件到txt的脚本习作

发表于 : 2010-01-15 13:41
fanhe
支持,是用w3m的转文本功能吧

Re: ubuntu linux下批量转换html文件到txt的脚本习作

发表于 : 2010-01-15 14:01
eexpress
练习下够了。现成的都有。

Re: ubuntu linux下批量转换html文件到txt的脚本习作

发表于 : 2010-01-15 16:42
t3swing
用c做练习比较好

Re: ubuntu linux下批量转换html文件到txt的脚本习作

发表于 : 2010-08-09 21:49
wangtwo
eexpress 写了:练习下够了。现成的都有。
html2text