求助：工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。

wanghonglou · #1

本人shell脚本知识正在学习。工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。

1、我要抓取的网站页面如下：http://www.yizlife.com/shzn/（参看附件里的“网站页面01.png”）
2、它里面总共12页，共25个分类。我想是否可以有个脚本来抓取这些数据，以文本形式保存即可。我想要3个数据值：商家名称；商家地址，商家电话，商家类型。数据值间以TAB键间隔。
3、请大家帮帮。

xzap · #2

这个很简单的，先用w3m 或者wget curl什么的下载页面，再grep sed awk然后保存一下就搞定了

wanghonglou · #3

xzap 写了：这个很简单的，先用w3m 或者wget curl什么的下载页面，再grep sed awk然后保存一下就搞定了

谢谢。

bones7456 · #4

代码：全选

w3m -dump -cols 10000 http://www.yizlife.com/shzn/ | awk '$1 ~ /^第/{F=0}{if(F)print $1,$2,$3,$4}/^商家/{F=1}'

差不多了。

t3swing · #5

bs lz重复发帖 ,我开始还纳闷,这种东西,小朋友不来顶顶没道理阿

cherishing · #6

呵呵，原来在window下面做过一个，原来用shell脚本这么简单……

求助：工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。

求助：工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。

Re: 求助：工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。

Re: 求助：工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。

Re: 求助：工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。

Re: 求助：工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。

Re: 求助：工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。