加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 站长学院 > PHP教程 > 正文

PHP爬虫:百万级别知乎用户数据爬取与分析

发布时间:2016-10-17 09:27:05 所属栏目:PHP教程 来源:站长网
导读:副标题#e# 这次抓取了110万的用户数据,数据分析结果如下: 498)this.width=498;' onmousewheel = 'javascript:return big(this)' width="503" height="233" alt="" src="http://www.aspzz.cn/uploads/allimg/160130/1G554Hc_0.jpg" /> 开发前的准备 安装Li

使用curl_multi函数可以同时发多个请求,但是在执行过程中使同时发200个请求的时候,发现很多请求无法返回了,即发现了丢包的情况。进 一步分析,使用 curl_getinfo 函数打印每个请求句柄信息,该函数返回一个包含HTTP response信息的关联数组,其中有一个字段是http_code,表示请求返回的HTTP状态码。看到有很多个请求的http_code都是 429,这个返回码的意思是发送太多请求了。我猜是知乎做了防爬虫的防护,于是我就拿其他的网站来做测试,发现一次性发200个请求时没问题的,证明了我 的猜测,知乎在这方面做了防护,即一次性的请求数量是有限制的。于是我不断地减少请求数量,发现在5的时候就没有丢包情况了。说明在这个程序里一次性最多 只能发5个请求,虽然不多,但这也是一次小提升了。

使用Redis保存已经访问过的用户

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读