pyspider实际应用学习第一天,用来做http监控简直太合适了

手写了不少python脚本采集,见识到了多任务情况下管理的麻烦,重复造轮子,调试等各种使生产变得低效的问题。

今天想静下心来当一个初学者,好好学习爬虫工具,pyspider

边学习边参考 https://www.cntofu.com/book/156/api/api1.md 上的教程,花了一个小时学完全本。

学完不等于掌握,学完只是知道这本书有什么内容,下次有疑问可以回来参考。

说下学习心得。

1、采集数据变得方便多了,css选择器优先推荐,点点鼠标完成采集高效,正则做辅助了弥补,支持js渲染的采集,支持设置采集某个url使用代码。

2、response对象,当我读完这章之后,发现我们折腾很久的http平台,使用pyspider可以1小时搞完。

这里重点先讲用做http监控的场景,毕竟采集方面会复杂一些,自己还没资格讲。

我们的运维http监控需求是这样

1、日常探测,主要是测试网页或接口是否打不开或内容异常

2、多节点探测,测试不同区域能否正常打开网页或接口 (爬虫代理设置那行 username:password@hostname:port要使用的代理服务器)

3、3次异常才算异常(自动重试功能)

4、响应时间、状态码

5、定时自动任务重复每5分钟(pyspider默认就支持)

69.jpg


标签: 爬虫, pyspider

非特殊说明,本博所有文章均为博主原创。

最新文章

发表评论