求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。

sh/bash/dash/ksh/zsh等Shell脚本
回复
wanghonglou
帖子: 13
注册时间: 2008-08-07 18:56

求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。

#1

帖子 wanghonglou » 2010-01-15 16:59

本人shell脚本知识正在学习。工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。

1、我要抓取的网站页面如下:http://www.yizlife.com/shzn/(参看附件里的“网站页面01.png”)
2、它里面总共12页,共25个分类。我想是否可以有个脚本来抓取这些数据,以文本形式保存即可。我想要3个数据值:商家名称;商家地址,商家电话,商家类型。数据值间以TAB键间隔。
3、请大家帮帮。
附件
网站页面01.png
头像
xzap
帖子: 256
注册时间: 2006-08-24 21:25

Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。

#2

帖子 xzap » 2010-01-15 18:35

这个很简单的,先用w3m 或者wget curl什么的下载页面,再grep sed awk然后保存一下就搞定了
wanghonglou
帖子: 13
注册时间: 2008-08-07 18:56

Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。

#3

帖子 wanghonglou » 2010-01-17 9:07

xzap 写了:这个很简单的,先用w3m 或者wget curl什么的下载页面,再grep sed awk然后保存一下就搞定了
:em01 谢谢。
头像
bones7456
帖子: 8495
注册时间: 2006-04-12 20:05
来自: 杭州
联系:

Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。

#4

帖子 bones7456 » 2010-01-18 15:33

代码: 全选

w3m -dump -cols 10000 http://www.yizlife.com/shzn/ | awk '$1 ~ /^第/{F=0}{if(F)print $1,$2,$3,$4}/^商家/{F=1}'
差不多了。
关注我的blog: ε==3
t3swing
帖子: 1028
注册时间: 2008-11-01 21:42
来自: 树下板凳

Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。

#5

帖子 t3swing » 2010-01-18 16:31

bs lz重复发帖 ,我开始还纳闷,这种东西,小朋友不来顶顶 没道理阿
民族的脊梁,是踏实做事的人,非只知道骂街的泼妇。
cherishing
帖子: 35
注册时间: 2009-09-11 12:31

Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。

#6

帖子 cherishing » 2010-01-21 13:55

呵呵,原来在window下面做过一个,原来用shell脚本这么简单……
回复