pip安装的依赖包包括:requests2.25.0、urllib31.26.2、docx0.2.4、python-docx0.8.10、lxml4.6.2
谷歌浏览器
从上图中,可以看到科目四共有1487道题目,为了将所有的题目汇总到一个Word文档中,需要获取到每道题的文本和图片。首先,打开谷歌浏览器访问上述网站,键盘按F12,点击Network,点击左侧题目中的向右箭头,一直点击下一道题,不断发起请求,在右侧可以看到每个题目的请求链接中只有五位字符的考试码不一样,所以我们要想办法获取每道题目的考试码。
在项目文件夹下folder中imgpath保存所有题目的图片,C1科目四1487题.docx就是运行结果。打开Word文档进行查看:
word文档可另存为pdf
与科目一不同的是,科目四里很多选择题中的图片是动态的GIF图,而不是静态的png,所以题目保存到Word中后图片并不会动态显示,因此,考虑将Word文档另存为网页文件(.html)
THE END