最初的爬虫就像是一个搜索探测器,按照指定规则,通过遍历网络内容的方式,搜集、提取所需的网页数据,被技术人员储存或重新加工。我们每天使用的各大搜索引擎,其实就是利用了爬虫技术。它扒取互联网上的所有网站信息,整理好信息索引,提供给其他用户进行快速搜索和访问。发展至今天,爬虫所获得的信息多种多样,不仅扒取互联网网站上的信息,在不同场景下还扒取公民身份、电信、出行、社交、电商、银行记录等多个维度的数据。
非法爬虫会威胁到保存在网站服务器上的用户个人和互联网服务提供商数据,从而侵犯用户隐私和服务提供商的商业信息,会带来法律风险。在实际商业世界中,大量的案件都围绕爬虫者侵犯商业数据、形成不当竞争有关。
二、爬虫管制的美国司法原则演变
为了维护网站的正常运营,免遭爬虫攻击瘫痪,并避免爬虫抓取敏感信息,早期的爬虫法律界线以网站爬虫协议为准绳。1994年,大部分互联网公司以及互联网爱好者们就达成了共识,撰写了一份Robots协议(RobotsExclusionProtocol,又称“爬虫协议”),以文本文件(.txt)的形式放在网站的根目录下。网站通过Robots协议告诉搜爬虫,哪些页面可以抓取,哪些页面不能抓取。每当爬虫访问一个站点时,它会检查该站点根目录下是否有爬虫协议。站点通过协议对爬虫软件进行约束,告诉使用者哪些数据可以抓取。即便如此,爬虫协议仅仅只是一个协议,是保护网站数据和敏感信息的互联网道德规范,却不是强制性法律或程序设置,所以并非所有爬虫均会遵守该标准。在真正发生纠纷诉讼时,还需要考虑在数据获取过程中,是否侵犯及多大程度侵犯了数据属主及其代理人的利益。
案例1EarthCam,Inc.vs.OxBlueCorp
案例2hiQLabvs.LinkedIn
尽管这个案件仍然有很大争议,在互联网界引起关于数据权的震动,该案件表明美国司法界对爬虫侵权违法问题有了更深入的认识,不再一味保护数据被扒取的一方,而从数据信息的本质上思考。数据是否公开、独占性和价值有多大等,关系到各方的合法权益,都成为法庭要慎重考虑的问题。
三、我国的经典爬虫判例及法律演变
我国一贯重视爬虫可能触及到的个人隐私安全和商业竞争问题。早年虽然没有与爬虫等互联网问题紧密的法律法规,但法院通过判定爬虫行为的实际后果是否违反了爬虫协议以及《刑法》、《著作权法》、《反不当竞争法》等法律来裁决。
百度v.s.大众点评:爬虫与反不当竞争
这个案件结束4年后,百度又与大众点评有一场爬虫遭遇战,更将爬虫与不正当竞争直接联系起来。2016年,百度使用技术手段在大众点评App上抓取商户的基本信息及点评信息,用户使用百度地图查询位置时,无需跳转至大众点评界面,就可直接在百度地图界面获取商户信息。因此,大众点评起诉以百度公司构成不正当竞争。
在审理过程中,法院将《反不正当竞争法》第2条作为主要裁判依据,认为二者首先存在竞争关系,百度通过爬虫直接获取大众点评的核心数据资产,违反了公认的商业道德和诚实信用原则,具有不正当性。由此,法院最终认定百度公司构成不正当竞争。
案例4字节跳动v.s.上海晟品:
2016年至2017年间,上海晟品网络科技有限公司采用技术手段抓取字节跳动服务器中存储的视频数据,并破解北京字节跳动网络技术有限公司的防抓取措施、实施视频数据抓取行为。
案例5知数公司v.s.彭某:爬虫与侵犯公民个人信息
法院认为,彭某的行为既未经公司同意,也未经数据属主的用户同意,属于非法获取数据行为,触犯了《刑法》第253条关于非法获取公民个人信息的规定,达到了最高院、最高检的《侵犯公民个人信息罪解释》量刑标准。
四、爬虫法律问题的未来展望
在互联网时代,爬虫的法律问题是一个混杂着数据产权和使用权、个人隐私、商业竞争、言论自由等议题的复杂争议点,涉及到民事责任和刑事责任。从上文可见,爬虫的种类和形式在变化,各国立法和司法界对爬虫的认知和规范也在不断的演化过程中。未来爬虫问题至少会在下面三点继续深化。
除了以上三点,爬虫的法律责任在什么情况下从民事上升到刑事责任等问题也在争议中。使用爬虫技术必须谨慎判断行为所处的法律边界,以免一步踏空,坠入违法犯罪的深渊。随着一系列法律法规的不断完善,在正当爬虫协议基础上开发的各种应用、遵守规则的爬虫行为和妥善的数据处置方法,将会让互联网生活变得更加便捷和美好,让公民隐私和正当的商业竞争得到保护。
国家金融与发展实验室银行研究中心,致力于推动国内外银行业学术交流和政策对话,为国内外科研组织、商业银行机构提供应用性研究成果和咨询服务。