Cnki Scrapy Plawright Spider
使用 scrapy + playwright 获取知网各省市的所有的期刊信息
通过 playwright
- 多开标签同时查询多个省市的期刊列表
- 分析后面每个期刊的详情页面,这个页面不需要 js 就获取 html
- 点击详情页的投稿获取投稿信息, 分析 xhr 请求,可以用 api
- 在投稿页面获取补充信息, 分析 xhr 请求,可以用 api
与单独使用 playwright 对比
单独使用的优点
- 可以加载 js
- 不需要分析请求内容
- 不需要解密
- 不用额外设置防屏蔽,比 selenium 更方便
缺点
- 加载了大量 js css jpg 内容
- 要等待时间长
- 多开性能要求高
- 容易出错
- 逻辑处理要求高
- 保存内容要自己设计
总结
使用 scrapy + playwright 可以更快更稳定更方便