curl 分页获取十几万的数据 服务器超时,如何解决?


curl 获取api的接口数据,while循环page++接收处理数据,每页100条数据。数据总共十几万条。老是服务器超时,如何解决?
max_execution_time set_time_limit

性能优化 apache 程序员 php 服务器

琉璃色的眼瞳 10 years, 6 months ago

分析失败原因,是不是上班时间段访问量比较大,导致的,可以错开该时间段,比如晚上/凌晨采集。

解决方式:

  1. 修改采集时间间隔,抓取频次调小一点
  2. 最好是结合数据库做一个采集应用,采集成功的修改状态为1,采集不到的修改状态为0,然后通过定时脚本,轮询采集
  3. 如果是坐蜘蛛抓人家页面内容,建议利用程序通过代理IP去抓取,否则人家看你抓取频繁直接封IP
となりD王叔叔 answered 10 years, 6 months ago

Your Answer