下载软件,然后双击安装,后面的步骤都要在软件里操作。
二、访问数据DIY找到入口
目录的第三级是页面,它代表了支持爬取的网页结构,在中部有示例页面的网址,点开看到的是广州-天河二手房的列表页面,满足这个列表结构的安居客网页,都可以用上面的入口来爬数据。
比如,要爬取上海的二手房列表,可以点击示例网页顶部的广州,切换到上海,但是,安居客限制了最多显示50页,如果要爬取比较完整的数据,最好是再点击一下目录的各级分类,把一个网址下的页码数控制在50页以内,再把各级分类的网址拷贝整理出来。
三、添加网址爬数据
只有一个网址的话,可以直接粘贴到输入框里,然后选择要爬取的页数,最后点击获取数据;
有多条网址的话,先选择爬取页数,再点击"输入多条网址"按钮,把多条网址拷贝粘贴进去,最后确定;
添加网址成功后,会提示启动两个爬虫窗口,点启动,就会看到有两个爬虫窗口和一个管理窗口打开;
爬虫窗口就是一个浏览器窗口,它会自动访问要采集的网址,然后把数据存下来。
四、下载数据
爬虫窗口没有再访问网页,说明爬取完成了,到管理窗口把数据打包和下载下来。
然后在软件右上角的下载历史按钮里,可以查到存储路径,根据路径找到数据包,查看数据表。
五、进一步爬取二手房详情页数据
前面下载的数据表里的链接是详情页面的网址,这时,可以切换到"安居客二手房房源详情信息",把表里的链接拷贝添加进去,再启动采集。
最后,爬到的详情数据表里,多了下面这些字段数据,比列表数据更加全面。
THE END