网址抓取与分析

sh/bash/dash/ksh/zsh等Shell脚本
回复
头像
allarem
帖子: 1025
注册时间: 2008-05-31 17:27
来自: SUES
联系:

网址抓取与分析

#1

帖子 allarem » 2009-06-21 16:26

是这样的,我想研究一下各个大学的水平和网页上错误数有什么关系
但是很无奈不少网站都只是跳转,这样就不能用网址大全这类的复制粘贴了。
网址我可以提供,但只能是类似http://www.tsinghua.edu.cn这类的,因为很多学校根本不知道跳转到哪。
哪位高手能提供一下脚本?
头像
allarem
帖子: 1025
注册时间: 2008-05-31 17:27
来自: SUES
联系:

Re: 网址抓取与分析

#2

帖子 allarem » 2009-06-21 16:26

忘了说了,是提交到W3C服务器的验证那里
头像
sevk
帖子: 2060
注册时间: 2007-05-08 16:26
系统: arch
来自: 火星内核某分子内某原子核内
联系:

Re: 网址抓取与分析

#3

帖子 sevk » 2009-06-25 9:12

RFuzz:新的Ruby HTTP客户端

http://www.letrails.cn/archives/21

用RUBY做东西就是方便,虽然我没用过 RFuzz ,但建议你试试。
笔记本 :
F208S : gentoo
A460P i3G D6 : UBUNTU + WIN7
UN43D1 : UBUNTU + WIN7
1000人超级QQ群 LINUX + WIN : 31465544 或 18210387
tusooa
帖子: 6548
注册时间: 2008-10-31 22:12
系统: 践兔
联系:

Re: 网址抓取与分析

#4

帖子 tusooa » 2009-06-25 14:56

代码: 全选

errs=0
for w in websites ; do
    if [ `w3m -dump http://host/link... | grep error` != "" ] ;then
        errs=$(($errs+xxx))
    fi
done
echo $errs

代码: 全选

] ls -ld //
回复