2.可以看见文书案例顶部有筛选条件,可以按照日期、法院等筛选。(本爬虫按照日期爬取所有的文书)
3.分析网站内容时发现,点击下一页按钮地址栏的链接并无变化,属于动态网页。
5.发现记录由/Recod传送,该请求即是需要模拟的请求link,使用requests模拟浏览器直接请求数据库,带上浏览器headers和postdata
6.分析得到的url,可以发现start和end参数,我们修改其为我们所需的日期范围。
7.pagesize我们设置为1000,太小页数过多,太大网页加载太慢。pageIndex为页号,其它参数默认。
8.模拟请求数据库,得到法律文档标题和id,第一步先save这些数据。
9.接下来我们来分析单个案件文本内容的请求url
13.通过上述url,爬取文书内容。
有朋友需求按案由爬取文书,因此更新下程序。
(按提示的格式输入)
按日期+案由+法院级别+标题关键字+全文关键字查询爬取代码仅供参考,效率和异常处理上并未优化,请自行优化,本项目仅提供指导性方案。法律文书涉及一定隐私,仅供学术研究,请勿售卖数据!
THE END