Cnki Scrapy Plawright Spider

September 28, 2024

使用 scrapy + playwright 获取知网各省市的所有的期刊信息

通过 playwright

多开标签同时查询多个省市的期刊列表
分析后面每个期刊的详情页面，这个页面不需要 js 就获取 html
点击详情页的投稿获取投稿信息, 分析 xhr 请求，可以用 api
在投稿页面获取补充信息, 分析 xhr 请求，可以用 api

与单独使用 playwright 对比

单独使用的优点

可以加载 js
不需要分析请求内容
不需要解密
不用额外设置防屏蔽，比 selenium 更方便

缺点

加载了大量 js css jpg 内容
要等待时间长
多开性能要求高
容易出错
逻辑处理要求高
保存内容要自己设计

总结

使用 scrapy + playwright 可以更快更稳定更方便