批量下载twitter文字内容,如何写脚本
发表于 : 2014-04-16 19:36
hi,想问个问题,我需要批量下载某个twitter账号发布的内容,发现可以通过这种链接进行下载,
这里会变化的是最后max_id。不过在每一份下载文件里,都是以
开头的,而这里的max_id,就是下一份文件下载链接里的max_id数值。
因此可通过这种递归的方式进行下载。
思路是这样的。现在我知道可以通过wget加代理配置下载文件,下载好之后也可以通过find 筛选结果,但是如何下载成了难题。
从windows转入ubuntu不久,感觉可以通过bash解决这个问题,比如通过grep 筛选出 max_id数值,然后建立新的下载链接,但是还摸不清头脑,不清楚具体命令行改如何写。请各位大神指点一下
代码: 全选
https://twitter.com/i/profiles/show/CGChengduAir/timeline?include_available_features=1&include_entities=1&last_note_ts=0&max_id=455273007955443711,
代码: 全选
{"max_id":"455001245342654463","has_more_items":true,"items_html":"
因此可通过这种递归的方式进行下载。
思路是这样的。现在我知道可以通过wget加代理配置下载文件,下载好之后也可以通过find 筛选结果,但是如何下载成了难题。
从windows转入ubuntu不久,感觉可以通过bash解决这个问题,比如通过grep 筛选出 max_id数值,然后建立新的下载链接,但是还摸不清头脑,不清楚具体命令行改如何写。请各位大神指点一下