集搜客针对不同的网站(网页)提供了很多快捷采集工具,添加链接或者关键词,就可以采集数据,不用做采集规则,非常简单快捷。
我们以安居客为例,讲解快捷采集的使用过程。
数据管家实际是一个特殊的浏览器,具有爬虫功能和数据分析功能的浏览器。
安装完毕,数据管家会自启动。
关闭数据管家后,要再次启动,可双击桌面上的数据管家图标。
登陆爬虫,登陆会员中心(注意爬虫账号和会员中心账号一定要一致),并检查是否已经连上服务器(绿勾连接,红勾未连接)。
3.登陆安居客
根据使用经验,采集安居客之前,最好登陆安居客,才能持续浏览完整内容。
4.进入快捷采集
点击数据管家左侧边栏的“快”按钮,进入快捷采集。
5.选择合适的快捷工具
根据要采集的网页,选择类别-网站-网页。
比如我们要采集安居客二手房列表页面,选择房地产-安居客-安居客二手房房源列表
如下图所示,可以打开示例页面看看,确保后面操作时,添加的链接和示例页面类似。或者浏览网页下方的示例数据,进一步了解选定的快捷工具是否满足要求。
6.操作步骤
6.1粘贴链接,启动采集
6.2采集中的爬虫窗口
点击获取数据之后,
数据管家自动弹出两个采集窗口(窗口右下方有绿色的状态球),一个窗口加载网页,采集数据,一个窗口打包上传数据。两个采集窗口工作时,都不能关闭。
6.3打包下载数据
数据管家在弹出采集窗口的同时,还弹出了一个快捷采集数据管理窗口。
采集完成后,采集状态会从橙色的“采集中”,变成绿色的”已采集”。然后打包下载数据,下载下来的数据一般保存在电脑的下载文件夹。
如果,采集不成功,采集状态会变成红色的“已停止”,这时,要检查
添加的链接是否和样本页面类似;
需要提前登陆的网站,是否已经登陆;
7.采集到的数据
安居客二手房列表网页的样例数据:
8.快捷采集工具的复合使用
可以看到,通过多个快捷工具的复合使用,能采集到更大批量的数据。