【作者】曾赟(浙江大学光华法学院教授、浙江大学新时代“枫桥经验”研究院特聘研究员)
关键词:数据法学;法律大数据;数据权益;计算法学
目次一、数据法学的概念及研究对象二、数据法学的研究方法三、数据法学研究的本体论内容四、数据法学研究的认识论内容五、数据法学的研究定位结语
特定的时代背景对法学知识形态的形成具有决定性影响。我们现在处在一个怎样的时代?2012年,美国发布了《大数据研究与发展倡议》,这标志着大数据已成为时代的重要特征。在我国,体现这一时代重要特征的标志性事件是2015年国务院发布《促进大数据行动纲要》和2020年中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》。2020年,全球数据量达到64.2ZB。随着大数据发展上升至国家战略层面,数据被确立为一种重要生产要素,大数据时代已然降临。顺应大数据时代发展潮流,学者们提出了不同的法学知识形态。有学者将法律大数据研究作为一种新形式的实证研究;有学者基于大数据时代背景,提出发展计算法学的理论构想;也有学者基于计算时代背景,提出计算法学新范式;还有学者基于数字社会背景,提出发展数字法学的理论思维。我们认为,大数据时代背景下法学研究的新知识形态是数据法学。数据法学有其独立的研究对象、研究方法和研究内容。数据法学是继法教义学、实证法学、计算法学之后的第四种法学知识形态,是法学研究创新发展的新方向,同时也是一门独立的法学新学科。
一
数据法学的概念及研究对象
当前,我们处在大数据时代。不同于传统时代,大数据时代的科学新范式是数据科学。根据不同时期,可将科学范式区分为实验科学、理论科学、计算科学、数据科学。实验科学范式最早可追溯至13世纪的英国哲学家和教育改造家、实验科学的先驱洛基·培根(RogerBacon),他强调通过假设—实验—验证的方法探求事物的因果性。与实验科学相对,理论科学强调通过理性演绎和模型构建来探求事物的因果性。20世纪末,开普勒定律、牛顿运动定律、麦克斯韦方程等理论科学成果过于复杂,使得分析方法难以解决日趋复杂的问题,这导致科学范式从理论科学向计算科学演进。计算科学是一门通过虚拟实验和计算机模拟来理解与分析社会系统复杂问题的仿真科学。计算科学产生了海量的数据,从而催生了一门新兴的学科,即数据科学。数据科学是在抓取数据的基础上,通过数据获得知识,并利用知识进行决策,预测未来,理解过去和现在,创造新工业、新产品的一门科学。数据科学新范式反映在法学研究中即为数据法学。基于此,数据法学是以法律数据为研究对象,运用数据科学方法创造法律数据产品和发现法学知识的独立的法律科学。
数据法学有其特定的研究对象,即法律数据。何为数据?根据《中华人民共和国数据安全法》(以下简称《数据安全法》)、《深圳经济特区数据条例》《上海市数据条例》《重庆市数据条例》的规定,数据是指以任何电子或者其他方式对信息的记录。据此,法律数据就是指以任何电子或者其他方式对法律信息的记录。如何理解法律数据这一概念呢?例如,刑事裁判文书在被告人基本信息部分中记载了“因犯盗窃罪……判处有期徒刑十个月……刑满释放”这一条数据(以下简称“数据1”),这是不是数据法学的研究对象?
要回答这个问题,我们需清楚界定信息。信息可被分为量化的信息和质化的信息。信息论的奠基者香农认为,由于通信的语义与效果过于含糊、复杂,难以被量化,故而信息理论只考虑信息的度量(logarithmicmeasure)问题,而不考虑信息的语义和效果问题。信息论的基本概念,例如编码、熵、散度(divergence)、冗余,建立在量化的信息概念基础之上。现代信息理论的信息概念亦多指一种量化的信息,例如费舍尔信息(FisherInformation)原理、香农信息(ShannonInformation)原理、科尔莫戈罗夫复杂性(KolmogorovComplexity)和量子信息(QuantumInformation)等理论的信息概念。量化的信息与数字一致,均采用二进制代码的形式来表示物理项目或者活动。质化的信息是指一种语义信息,即有具体内容的信息,如意义、表征等。例如,古代边境烽火台上的狼烟被用来表示敌情。基于语义学,当前最具国际声望的信息哲学家弗洛雷迪(Floridi)将质化的信息界定为形式完好(well-formed)、有意义和真实的数据。简而言之,质化的信息等于“数据+意义”。
字段2:被告人周某、张某某非法获取、出售公民个人信息,被告人周某非法所得超过五万元,情节特别严重;被告人张某某非法所得超过五千元,情节严重。被告人周某、张某某的行为严重侵犯了公民的隐私权利,均已构成侵犯公民个人信息罪。依照《中华人民共和国刑法》……
需要说明的是,尽管法律数据概念的外延既涵盖数据法律规范文本,也涵盖宪法、刑事法律、民事法律与行政法律诸规范文本,但法律规范不是数据法学的直接研究对象。只有当数据法律规范作为数据分析中自然语言处理(naturallanguageprocessing)的对象,即作为数据分析的对象时,例如字段2中《中华人民共和国刑法》(以下简称《刑法》)涵盖的保护公民个人信息的数据法律规范,数据法律规范才成为数据法学的研究对象。同样地,作为数据分析对象的宪法、刑事法律规范、民事法律规范与行政法律规范才是数据法学的研究对象。虽然数据法律规范可同时作为数据法学和数据法教义学的研究对象,但作为数据分析对象的法律规范与作为法教义学规范分析对象的法律规范明显不同。具言之,数据法学研究建立在基于数据驱动的数据分析基础之上,而数据法教义学研究建立在数据法律规范分析的基础之上。
需要说明的是,量化的信息与质化的信息的类型划分对于法律科学研究的类型化仍然具有一定意义。例如,我国有学者将计算的对象界定为计算法学的研究对象,而计算的对象乃一种量化的信息。正是基于这一原因,国外计算法学者才将计算法学界定为“像软件一样工作的法律”。显然,量化的法律信息、法律数字主要涉及纯粹的数字化技术问题,亦即数据的数字化问题,而数字化是运用数字技术将计算机中的信息对象,如数字(number)、字符、声音、颜色、图形、图像,都用“0”和“1”来表示。鉴于此,量化的法律信息、法律数字不是数据法学的研究对象,但可以是计算法学的研究对象。
二
数据法学的研究方法
(一)法律大数据:法律大数据方法的物质特征
根据数据科学原理,符合“3v”特征的法律数据就是法律大数据。尽管自“大数据”一词被广泛传播以来,大数据的定义已经从“3v”定义发展到“10v”定义,但大数据的“3v”定义仍具有意义。“3v”定义出自于盖特纳(Gartner)公司分析师道格·拉尼(DougLaney)于2001年所作的报告,他将大数据界定为一种具有超大容量(volume)、种类多样(variety)、流动速度快(velocity)的数据。类似定义还有国际数据中心(IDC)给出的“4v”定义,即在前述“3v”的基础上增加“价值性”(value)特征。另外,较具有代表性的还有维基百科和麦卡锡公司给出的定义。维基百科对大数据的定义是:大数据是一个研究如何分析信息和系统抽取信息的领域,或者是指因为容量太大、种类太复杂,采用传统数据处理应用软件而无法处理的数据集。麦卡锡公司对大数据的定义是:大数据是指利用一般类型的数据库软件工具无法抓取、存储、管理和分析的数据集。当然,大数据的“大”是一个变动的概念。有观点认为,当前大数据规模的标准可泛指单一数据集的大小在几十TB和数PB之间。
(二)机器学习算法:法律大数据方法的技术特征
(三)算力支持:法律大数据方法的动力特征
数据法学是一门技术性强的法律科学,体现在对法律大数据的抓取、维护、处理、挖掘、构架、分析、可视化以及法律数据库的创建、商业智能化等方面。法律大数据方法的实现除需要具备前述物质基础、技术基础外,还需有超级计算机硬件、软件工具提供算力支持。例如,传统统计分析工具和数据挖掘算法对多维、复杂的大数据不具备可移植性和可伸缩性,因而往往以损失原始数据为代价,产生一种低效率、低质量的数据挖掘结果。对绝大多数研究者来说,即便其所分析的数据仅为上百G的普通数据,亦难以通过传统软件开展统计分析。例如,有学者对其所收集150G的普通数据,在利用Awstats日志分析软件进行处理时,尚不得不通过三步处理法后,才可运用SPSS这一常规软件进行分析。为应对大数据挖掘的低效率、低质量等问题,研究者通过集成方法、云计算开发新的可用于法律大数据分析的应用软件。例如,IBM公司通过对R语言和Hadoop的深度集成,克服了传统软件扩展性差、分析功能薄等不足。又如,Google公司构造新搜索引擎平台,以实现海量小文件存储和大数据的实时交互分析。但是,研究者目前大多只能采用分步统计的办法实现对容量较大的数据的处理与分析。
总之,法律大数据方法与实证法学、数据法教义学、计算法学的研究方法明显不同。兹以用于传染病预防的SIR模型被用于特定区域、特定时期内的毒品违法犯罪预防为实例,来说明法律大数据方法、实证法学研究方法与计算法学研究方法的区别。根据SIR模型,当I(已吸毒者)人数趋多时,S(易吸毒者)人数趋少,同时R(移出者即解除强制戒毒人员)人数会变多。在排除外在干预情况下,当毒品基本传播数R=3时,则吸毒人数比将达到66.7%。R越高,吸毒者人数比越高。据此,若加强对毒品违法犯罪行为的预防,从而使毒品基本传播数R趋向于0,则社会中吸毒者人数将趋向于0。基于SIR模型,通过计算机模拟毒品传播的环境、途径、方式,我们可以发现阻断毒品传播的路径方法。这一研究方法即为计算法学研究方法,亦即一种计算机模拟与模型计算方法。显然,这种方法并非绝大多数法学研究者所能掌握。毒品基本传播数R则可采用法律大数据方法计算得出。当然,R也可以通过抽样调查得出,而抽样调查的方法就是实证法学研究方法。
三
数据法学研究的本体论内容
(一)对个人数据权益可以通过赋予个人数据某种财产权益属性的进路来保护
个人数据权益在我国法律上是一项民事权益,而在一些外国法上是一项宪法基本权利。个人数据权属的论争焦点在于个人数据权益是不是一种新型财产权益或者所有权。对此,有学者持肯定说。例如,国外有学者通过对《欧盟一般数据保护条例(草案)》的分析,认为虽然该草案未有关于财产权的只言片语,但仍可从中推演出个人数据财产权或所有权保护意向。对于2018年实施的《欧盟一般数据保护条例》,国外有学者从关于个人数据删除权(righttoerasure)、数据可携带权、数据主体的同意权等权利保护和个人数据的自由流动义务的规定出发,直接推论该条例含有个人数据财产权益或所有权保护。我国有学者从个人数据潜在商业价值、使用价值等方面展开论证,认为应赋予个人数据财产权。亦有学者主张赋予个人数据所有权。
当然,虽然个人数据权益不具有财产权或所有权属性,但鉴于个人数据权益遭遇恣意侵害的程度日趋严重,我们认为,法律可以通过赋予个人数据某种财产权益属性来强化对个人数据权益的保护。赋予个人数据一定的财产权益属性,有助于强化对个人信息的控制,从而促进隐私权保护。例如,国外有学者认为,美国社会中的个人隐私遭遇任意侵蚀的主要原因是个人失去对个人信息的控制,因而一旦个人成为个人信息的所有权人,则可以实现对个人信息的有力控制,从而使隐私权得到有力保护。对此,也有学者持反对意见。剑桥大学教授沃辛顿(SarahWorthington)认为,给数据主体的权利保护贴上财产权或者所有权的标签,是完全没有必要的。在沃辛顿看来,只要数据主体享有简单的受法律保护的权利,或者数据用户在使用数据的过程中受到特定的法律约束,即可实现隐私权保护目的。我们认为,可以通过赋予个人数据一定意义上的财产权益来促进人格权益的保护。例如,通过规定侵犯个人数据同意权、决定权、更正权、限制处理权、更正补充权、携带权、删除权诸项权利的损害赔偿责任条款来强化对个人数据权益的保护。我国《个人信息保护法》第69条恰好说明前述观点足以成立。
(二)企业数据财产权益属性问题
根据前述分析,将数据财产权益作为一种对世的绝对权的观点是值得商榷的。我们认为,企业数据权益是一种新型的财产权益,对企业数据权益的保护可采用一种防御性财产权益的保护路径。基于此,我们提出剩余所有权说,主张数据生产经营者对其数据产品或者衍生数据享有剩余的占有权和剩余的收益权。基于企业数据剩余占有权说,企业数据财产权益体现为一种基于商业秘密或正当竞争而获得的竞争性利益。基于企业数据剩余收益权说,企业数据财产权益体现为一种企业通过数据交易获得利润的收益权。
(三)数据安全利益保护
数据安全是保障数字经济健康发展的条件,是国家总体安全的重要内容,因而也是数据法学本体论的重要内容。根据《数据安全法》和《中华人民共和国网络安全法》,数据安全是指数据处于一种有效保护和合法利用的状态以及保持这一状态的能力。数据安全状况是指数据的保密性、完整性和可用性状态。我国法律按照数据的不同类型和级别来设定数据安全保护制度,对核心数据、重要数据与一般数据,分别实行高度严格管理制度、严格管理制度与合理管理制度。
四
数据法学研究的认识论内容
(一)法律数据产品的创造
法律数据产品的创造是法学知识发现的前提。换言之,法律数据产品需具有法学知识发现的功能。但是,我国目前的法律数据产品,尤其是法律数据库,并不具有法学知识发现的功能。目前,我国法律数据产品的创造主要体现在以下两个方面:
二是法律人工智能建设。我国法律人工智能建设主要包括以下技术:其一是庭审过程中的语音识别技术。目前,该技术已被广泛应用于智慧司法建设。语音识别的应用有助于减轻庭审记录的压力,也有助于提升案件办理的数量。这一技术应用虽然比较成熟,但也存在瓶颈,例如,多人同时说话时,语音识别率明显偏低。其二是图像识别技术。该技术已被广泛应用于司法辅助系统建设,例如法律手写文本、证据原件的文字转化。总体来看,我国当前法律人工智能建设仅体现为一种司法辅助系统的应用性建设,因而我国法律人工智能建设仍处在一个相对初级的阶段。正如有学者指出的:“当前司法人工智能应用还较为混乱、低效。”产生这一现象的原因主要在于,一种像人一样思维和行为的强人工智能技术目前尚处在较为幼稚的阶段。因此,法律强人工智能应用技术也就处于相对初级的阶段。
(二)法学知识的发现
五
数据法学的研究定位
在廓清数据法学的概念、研究对象、方法及内容之后,我们需要确定数据法学的研究定位。具体包括:其一,数据法学属于何种类型的法学知识形态?其二,数据法学是法学研究创新发展的方向吗?其三,如何确定数据法学的学科定位?
(一)数据法学是继法教义学、实证法学、计算法学之后的第四种法学知识形态
特定的科学研究范式对法学知识形态的发展具有决定性的影响。回顾科学研究范式的演进历程,考察法学知识形态的发展脉络,我们认为数据法学是继法教义学、实证法学、计算法学之后的第四种法学知识形态。
实验科学研究范式对法教义学知识形态的形成具有决定性的影响。实验科学研究范式最早由13世纪的实验科学先驱洛基·培根(RogerBacon)开启,后经17世纪的实验科学创立者弗朗西斯·培根(FranciscBacon)的阐发,一直延续至今。循着实验科学范式,19世纪的法学家的重要使命是让法学科学化。毫无疑问,奥斯丁是这一时期法律科学化理论构造的先驱。承继实验科学范式,奥斯丁开创了被称为法教义学源流的分析法学流派。奥斯丁从经验论出发,将法律界定为“主权者的命令”,进而基于事实与价值分离的基本立场,先验地假设“实然的法秩序是法律适用的唯一法律渊源”。基于此,法教义学是一门视现行法律秩序为信条,并以此为基点开展法律解释学研究的规范科学。当然,对何谓“现行法律秩序”这一问题,学者们有不同理解。多数学者认为,现行法秩序是指现行实证法律规范。也有学者认为,现行法秩序是指法的体系化教义和它的逻辑融贯性,而非立法者制定的法律(主权者的命令)。我们认为,二者其实并不矛盾。无论是注释法学研究,还是法教义学视角中法律适用的理性演绎,对现行法律规范的解释必然从现行法律规范本身出发,同时也需遵循法律体系的基本信条,实现逻辑的自洽与融贯。
在20世纪中后期,科学研究范式演进到计算科学。与之相随,法学知识形态开始向计算法学转型。计算法学是对计算科学范式的必然反映。斯坦福大学计算机科学教授迈克尔·格尼塞吉内思(Genesereth)将计算法学界定为一种法律推理自动化方法。他认为,实现法律推理自动化方法需要两个要素:一是采用形式逻辑的句子来表征事实和规则;二是利用机械推理技术来获得所表征的事实与法律之间的因果关系。有学者认为,计算法就是“像软件一样工作的法律”。所谓“像软件一样”,意指一种法律方法,而非空洞的法律理论,具体包括编程、编码,甚至包括基本的“黑客技术”方法。
大数据时代的科学范式是数据科学,与之相一致的法学知识形态是数据法学。数据科学家认为,未来属于那些能够把数据变成产品的公司和人们。他们戏称:“数据科学家所从事的工作是21世纪最性感的工作。”数据科学也是一种新的科学方法,例如,美国康奈尔大学校长、计算机教授玛莎·波拉克(Pollack)在2015年的一次演讲中将数据科学界定为一种继实验、模型、计算之后的第四种知识发现方法。数据科学方法可被理解为一个由捕获、维护、处理、分析、转化五个环节组成的数据科学生命圈。基于此,建立在数据科学基础上的数据法学既是第四种法学知识新形态,也是一种基于法律大数据驱动而创造法律数据产品和发现法学知识的新方法。由此,数据法学方法既是一种基于算法的理性演绎,也是一种基于法律数据的归纳推理。正如数据科学是科学研究创新发展的新方向,建立在数据科学之上的数据法学是法学研究创新发展的新方向。
(二)数据法学是法学研究创新发展的新方向
关于法学研究创新发展的方向,学界展开了热烈讨论。苏力教授采用“范式”概念,概括了当代中国法学研究发展的三个阶段,即“政法法学”“诠释法学”“社科法学”。考虑到“范式”一词有比较严格的定义,故我们采用“法学知识形态”的概念来指称法学知识的演进历程。黄文艺教授即采用“法学知识形态”的概念来描述中国独特的法律文明历史和法律生活实践演进。陈兴良教授亦采用“法学知识形态”的概念来指称当代中国法学知识的演进状态。需要说明的是,苏力教授开启的社科法学研究其实是一种定性实证法学研究,而非定量实证法学研究。随着大数据时代的到来,我国法学学者相继提出了计算法学、数字法学、信息法学、网络法学、数据法学等概念,并声称自己所提出的概念代表了法学研究创新发展的方向。我们认为,植根于数据科学范式的数据法学才是法学研究创新发展的新方向。
其三,法教义学与实证法学研究视角下的数据法学、计算法学、数字法学、信息法学也不是大数据时代法学研究创新发展的新方向。目前,我国学者关于数据法方面的研究均沿着法教义学研究路径展开,如何渊主编的《数据法学》、齐爱民所著的《数据法原理》、武长海主编的《数据法》。具体路径为:基于对数据法律规范的诠释理解和对数据法的概念、原则、制度、法律规定的相同与不同及相似的比较分析,整理出跨度更高的概念、原则和制度。显然,数据法教义学研究依附于数据法律规范,基于数据法律正确的假设,将数据法律规范视为一个法秩序之内的封闭体系,研究方法是法律解释。基于此,数据法教义学与传统的法教义学并无二致,不是法学研究创新发展的方向。同样地,实证法学研究视角下的计算法学、信息法学、数字法学归属于实证法学研究,故不具有自身独立的意义,亦难以成为法学研究创新发展的新方向。
(三)数据法学是一门独立的法学学科
数据法学是一门独立的法学学科,原因在于数据法学有其特定的研究对象、方法和内容。法教义学视角下的数据法学、信息法学、数字法学不是一门独立的法学学科,原因在于其研究对象为数据法规范、信息法规范、数字法规范,研究方法为法律解释。质言之,这些学科既不具有特定的研究对象,也不具有特定的研究方法。实证法学研究视角下的数据法学、信息法学、数字法学也不是一门独立的法学学科,因为这些学科的研究对象为数据法律现象、信息法律现象、数字法律现象,研究方法为实证方法,也就是说,这些学科也不具有特定的研究对象和研究方法。总之,法教义学视角下的数据法学、信息法学、数字法学归属于法教义学研究,实证法学研究视角下的数据法学、信息法学、数字法学归属于实证法学研究,这些都不是独立的法学学科。同样地,网络法学亦不具有其特定的研究对象和研究方法,不是一门独立的法学学科。雷磊教授亦认为,有关此类问题的研究在传统法学研究中就存在。
由此可见,数据法学是继法教义学、实证法学、计算法学之后的第四种法学知识新形态,是法学研究创新发展的新方向,同时也是一门独立的法学新学科。
结语
廓清数据法学的概念、研究对象、方法、内容,提出数据法学是法学知识新形态,并证立其独立学科地位,将为法学研究的创新发展奠定理论基础。其一,基于数据正确的理论假设,提出数据法学是法学知识新形态学说,从而为法学理论的创新发展奠基。当然,数据法学的理论建构路径与法教义学、实证法学、计算法学的理论建构异曲同工,法教义学、实证法学、计算法学分别基于法律规范正确、法律事实正确、计算模型正确而开展各自研究。其二,从数据法学本体论出发,提出赋予个人数据权益以一定意义上的财产权益保障,赋予企业数据新型财产权益的观念,有助于破解数据权属理论当下的困境。其三,从数据法学认识论出发,提出理性主义视角下因果关系普遍必然性和经验主义视角下因果关系偶然性之二分的观点,有助于突破休谟问题的困境,从而为数据法学的科学性奠基。其四,从数据法学方法论视角,提出融数据法学研究针对“全样本”之归纳推理方法和机器学习算法之理性演绎于一体的法律大数据方法,从而为走出经典统计估计得出的概率非原假设为真时的概率之有效估计困境及破解贝叶斯概率中先验概率不确定的难题奠基。