GitHuboonlyxin/pkulaw|北大法宝、法律咨询_法律

2.可以看见文书案例顶部有筛选条件，可以按照日期、法院等筛选。（本爬虫按照日期爬取所有的文书）

3.分析网站内容时发现，点击下一页按钮地址栏的链接并无变化，属于动态网页。

5.发现记录由/Recod传送，该请求即是需要模拟的请求link，使用requests模拟浏览器直接请求数据库，带上浏览器headers和postdata

6.分析得到的url，可以发现start和end参数，我们修改其为我们所需的日期范围。

7.pagesize我们设置为1000，太小页数过多，太大网页加载太慢。pageIndex为页号，其它参数默认。

8.模拟请求数据库，得到法律文档标题和id,第一步先save这些数据。

9.接下来我们来分析单个案件文本内容的请求url

13.通过上述url，爬取文书内容。

有朋友需求按案由爬取文书，因此更新下程序。

（按提示的格式输入）

按日期+案由+法院级别+标题关键字+全文关键字查询爬取代码仅供参考，效率和异常处理上并未优化，请自行优化，本项目仅提供指导性方案。法律文书涉及一定隐私，仅供学术研究，请勿售卖数据！

THE END

GitHuboonlyxin/pkulaw