Ubuntu中文论坛

发表于： **2010-01-15 16:59**

本人shell脚本知识正在学习。工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。

1、我要抓取的网站页面如下：http://www.yizlife.com/shzn/（参看附件里的“网站页面01.png”）
2、它里面总共12页，共25个分类。我想是否可以有个脚本来抓取这些数据，以文本形式保存即可。我想要3个数据值：商家名称；商家地址，商家电话，商家类型。数据值间以TAB键间隔。
3、请大家帮帮。

发表于： **2010-01-15 18:35**

这个很简单的，先用w3m 或者wget curl什么的下载页面，再grep sed awk然后保存一下就搞定了

发表于： **2010-01-17 9:07**

xzap 写了：这个很简单的，先用w3m 或者wget curl什么的下载页面，再grep sed awk然后保存一下就搞定了

谢谢。

发表于： **2010-01-18 15:33**

代码：全选

w3m -dump -cols 10000 http://www.yizlife.com/shzn/ | awk '$1 ~ /^第/{F=0}{if(F)print $1,$2,$3,$4}/^商家/{F=1}'

差不多了。

发表于： **2010-01-18 16:31**

bs lz重复发帖 ,我开始还纳闷,这种东西,小朋友不来顶顶没道理阿

发表于： **2010-01-21 13:55**

呵呵，原来在window下面做过一个，原来用shell脚本这么简单……

Ubuntu中文论坛

求助：工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。

求助：工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。

Re: 求助：工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。

Re: 求助：工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。

Re: 求助：工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。

Re: 求助：工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。

Re: 求助：工作需要，想抓取一个页面上某个框架里的文本数据。请大家帮帮。