加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 站长学院 > PHP教程 > 正文

PHP爬虫:百万级别知乎用户数据爬取与说明

发布时间:2016-10-29 12:13:52 所属栏目:PHP教程 来源:Hector
导读:副标题#e# 这次抓取了110万的用户数据,数据分析结果如下: 开发前的准备 安装Linux系统(Ubuntu14.04),在VMWare虚拟机下安装一个Ubuntu; 安装PHP5.6或以上版本; 安装MySQL5.5或以上版本; 安装curl、pcntl扩展。 使用PHP的curl扩展抓取页面数据 PHP的c

因为想知道每个进程花费的时间是多少,因此写个函数统计脚本执行时间:

  1. function microtime_float() 
  2.      list($u_sec, $sec) = explode(' ', microtime()); 
  3.      return (floatval($u_sec) + floatval($sec)); 
  4.  
  5. $start_time = microtime_float(); 
  6.  
  7. //do something 
  8. usleep(100); 
  9.  
  10. $end_time = microtime_float(); 
  11. $total_time = $end_time - $start_time; 
  12.  
  13. $time_cost = sprintf("%.10f", $total_time); 
  14.  
  15. echo "program cost total " . $time_cost . "sn"; 

若文中有不正确的地方,望各位指出以便改正。

代码托管地址:https://github.com/HectorHu/zhihuSpider

 

 

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读