【Python】网络爬虫经验之谈_编程开发

【Python】网络爬虫经验之谈

创始人

2024-05-25 20:09:10

0次

爬虫经验之谈

- 对爬虫的认识
- 网站分析
- 技术选型
- JS逆向
- 反爬机制
- 结语

近段时间，因为工作需要做一些爬虫的开发，分享一下走过的坑和实战的经验吧！

对爬虫的认识

F12查看的网络请求，找到相应的接口查看一下json数据来源和构造。我爬取的网站很多信息是需要vip登录才可以获取的。我最开始试图破解vip这一步，结果是我天真了。后来查了一些资料才发现，爬虫干不了这个，得是黑客渗透才行！！看来之前的我还是对爬虫理解不透彻，，原来爬虫没有那么高端。其实就是对可见数据的抓取，完全是提高效率罢了，越界的事儿不是它的范畴。

网站分析

目前爬虫获取数据基本分为两种情况，可选择一种使用，也可结合使用
1、找到url规律，get请求html，然后提取想要的数据
2、找到请求json数据的接口，模拟接口传参获取json数据
第一种情况

1、适用于html较为规律的情况下，几乎一眼就能看出。通常这种网站的开发都是非常简单的
2、有部分网页是js渲染过的，所以直接拿下来之后的html是不全的。需要用到splash这样的渲染库，它会把js渲染后的html给到你

第二种情况

1、最实用的手段，也是工程师们最喜欢的方式

技术选型

爬虫相关的最受欢迎的技术栈和相关描述，可以根据业务需要自行选取：

selenium：自动化模拟浏览器。这种方式效率比较低，但是比较简单，若遇到需要登陆时的滑块破解，有一定的破解难度
requests库：模拟登录维持会话与对方服务器进行交互。也是上述网站分析第二种情况的常用方式，也是非常非常受欢迎的方式。我个人最喜欢的，也是个人觉得性价比最高的。
pyspider：国人开发的一款web ui的爬虫框架。适用于简单的爬虫，效率高，我个人不是很喜欢，局限性太大
scrapy：很强大的爬虫框架，将爬虫脚本带向工程化开发和管理。如果需要将爬虫做成工程的话，比如做数据维护这类的长期需求，建议用这个
数据解析用Beautifulsoup、re正则、pyquery，lxml都是没有问题的。本人基本是结合使用，我相比更喜欢正则
fiddle：网络数据抓包，可以查看网络请求和其带的数据，方便做接口查询和错误排查

JS逆向

JS逆向简单讲就是在JS里面找到我们想要的东西。举个例子：接口中返回的数据是经过加密的，我们拿到过后是一串密文，但是在前端显示是正常的，那么此数据就是在后端加密，前端JS解密的。那么我们需要找到JS解密的代码，将密文解密得到我们想要的明文。
我喜欢用的方式是：找到那个加密的变量，JS全局搜索变量，很快就可以找到需要的JS解密代码