当人们在逐渐接受网络时代的信息爆炸,不断适应自媒体时代带来的言论自由问题时,大数据时代悄然而至。这种有关数据的技术新革命不仅给世界经济和社会发展带来了空前的机遇和挑战,也给法学研究者提供了新的研究课题和新的研究方法。只有了解大数据,更新思维模式,才能在科技日益影响法学研究的洪流中跟上时代的步伐,开拓法学研究的新趋势。
一、从大数据到大数据时代
(一)大数据的概念
“大数据”(bigdata)这个词最早是在杂志《Nature》2008年9月第4期“BigData:ScienceinthePetabyteEra”{1}一文中提出,该文由问题“怎样处理不断产生的海量数据?”为切入点,以维基百科的成功证明对公开且免费的数据或信息进行编辑或处理已经是一项成功的事业为案例,以存储数据技术的发展为基础,首次提出了“大数据”这个概念。同期的《大数据:从数据中挖掘价值》{2}一文论证了数据需要正确地分类与整理,大数据可视化具有巨大的经济潜力与现实意义。大数据不仅是科技进步的里程碑,其也会促进新学科的产生,这些新学科需要人们用新的透镜来观察。此后,“大数据”这个词在世界范围内得到广泛传播与使用。
2011年5月麦肯锡咨询公司发布了《大数据:下一个创新、竞争和生产力的前沿》{3}分析报告,该报告认为“大数据是指数据存储量超过具有收集、存储、管理和分析数据功能的传统数据库软件的数据集合。”{3}其包含了两个方面的含义:第一,“把大数据故意定义为主观且开放型的概念,即不具体定义多大规模的数据集合才能为成为大数据”。{3}因为随着技术的不断进步和发展,大数据的数据量会不断增长,在定义中规定具体的数据存储量不仅没有必要更没有实际意义。第二,“关于大数据的定义会随着部门的不同而不同,其主要取决于在特定的行业中普遍的数据集合的规模”。{3}这基于每个行业都有其固有的性质和特点,数据集合的规模也会存在千丝万缕的差别。从麦肯锡咨询公司的观点来看,大数据就是庞大的数据规模。
(二)大数据的特征
2011年9月30日,赖恩霍普金斯和鲍里斯埃韦尔松在《用大数据拓展数字视野》报告中,阐述了大数据的4个特性将影响大数据的技术发展时指出数据具有海量性、快速变化性、格式多样性和结构易变性。{5}3
1.海量性
大数据之所以得此名,最直接的原因就在于数据的海量性。如果把大数据时代之前的数据量比作涓涓溪流的话,大数据时代的数据量就是广阔的汪洋大海。以计算机的CPU和数据存储技术水平而言,G或T(1000G)已经不再是衡量这些数据的单位,而要以PB(1015T)及以上的单位来表明数据量。2014年3月7日,阿里巴巴公司大数据负责人在杭州举办的数据峰会“2014西湖品学大数据峰会”上披露了阿里巴巴目前的数据储存情况。“据阿里大数据负责人介绍,目前在阿里数据平台事业部的服务器上,攒下了超过100PB已处理过的数据,等于104857600个GB,相当于4万个西雅图中央图书馆,580亿本藏书。仅淘宝和天猫两个子公司每日新增的数据量,就足以让一个人连续不断看上28年的电影。而如果将你代入成服务器,你处理的数据量则相当于每秒钟看上837集的《来自星星的你》。”{6}由此,大数据的海量性可窥见一斑。
2.快速变化性
由公司、企业、国家机关和个人等的生产、生活所产生的数据包括生活数据、商业数据或公益数据等。每一个产生数据主体的信息变化都会立刻导致大数据的变化,这种大数据的快速变化性可以形容为瞬息万变。例如百度或360搜索引擎,每秒钟的搜索热点都不相同,每天的搜索风云榜都处在不断变化之中,体现了数据内容的快速变化性。
3.格式多样性
在大数据时代,数据已经从图、文、声、像的简单陈列转变为以多种形式组合的复杂集合体。既有以描述性文字为基础的医疗档案,也有以视频技术为主的医疗教育短片;既有以0和1为所有表现形式的二进制数据,也有以可视化技术为基础表现的三维图像;既有MAPGI数据格式,又有ArcGIS数据格式。虽然此处无法穷举所有的数据格式,但现有的数据格式已经呈现出多样性的特点。
4.结构易变性
数据结构分为逻辑结构、存储结构(物理结构)和数据的运算。数据的逻辑结构是指对数据之间关系的描述,这里的数据结构专指数据的逻辑结构。因世间万物纷繁复杂,关系盘根错节,描述这些现象、关系或逻辑的数据结构也会随之改变,这种结构易变性在大数据时代表现得尤其明显。例如大城市繁忙路口的车辆流量统计数据,每月、每天、每个小时,甚至是每秒钟的数据都不一样,描述这些数据的逻辑结构也随时发生变化。因此,以数据为细胞的大数据的结构也呈现出易变性的特点。
(三)大数据时代
2012年3月29日,美国奥巴马政府公布了《大数据研发计划》{7},斥资2亿美元在国防、能源、卫生和地质勘探等五个部门研发大数据技术,亦在通过提高从多而复杂的电子数据集合中提取知识和观点的能力来解决美国国内面临的最紧迫的一些挑战。此研发计划一经公布,引起了世界范围内对大数据技术的讨论与追捧,标志着大数据技术的全球推广。同年7月,联合国发布了政务白皮书:《大数据促发展:挑战与机遇》,首次提出了“大数据时代”{8}4这个称谓,标志着大数据时代的开启。大数据时代的数据具有两个显著的作用:
1.数据具有经济价值
众所周知,数据产生于各行各业,同时也已经服务于各行各业。在大数据时代,数据受到前所未有的高度重视与热情讨论,不仅因其数量上具有的绝对优势,更重要的是数据已经具备经济功能。经过分析或有序排列的数据可以产生商机,数据本身也可以作为无形资产予以出售。数据就像专利权、知识产权一样,不仅本身具有巨大的商业价值可以转让,而且利用数据创造的经济价值更是无法估量。“例如,如果美国的医疗服务业可以创造性地、有效率地利用大数据来提高其工作效率和服务质量,我们估计其从大数据中创造的潜在价值每年将超过3000亿美元,其中,三分二的潜在价值是通过减少8%的国内医疗费用来实现。在私营部门,以零售商为例,我们估计这些企业可以充分利用大数据将其营业利润提高至少60%。在欧盟的发达经济体,我们估计政府部门可以通过利用大数据来提高其工作效率,仅这一项就可以节省超过1000亿欧元(1490亿美元)。”{9}2
2.数据可以通过多种途径创造价值
二、大数据对法学研究的影响
随着数据存储技术的发展和大数据时代的来临,大数据不仅对经济市场中的各行各业呈现出不同程度的冲击与影响,而且也在潜移默化地影响着法学研究。
(一)出现法律空白或频繁出现新的法律纠纷
信息是经过加工后的数据,信息的直观性、逻辑性及价值性使信息保护这个话题在大数据时代逐渐受到青睐,不论是个人的信息保护还是企业的信息保护,在我国的立法范围内还属于空白领域,只有少数的几部办法或规范对其进行规定。如公安部、国家保密局、国家密码管理局、国务院信息化工作办公室于2007年公布了《信息安全等级保护管理办法(公通字[2007]43号)》,对信息等级划分与保护、信息等级保护的实施与管理、涉及国家秘密信息系统的分级保护管理、信息安全等级保护的密码管理、法律责任等方面进行了规定。浙江省人民政府第77次常务会议审议通过了《浙江省信息安全等级保护管理办法》,该《办法》自2007年1月1日起施行。我国虽然在信息安全及保护方面有了政策法规[1]、行业规范[2]和技术标准,但是这些规范、标准及其零散且不属于全国性的立法保护,这使得对信息的保护力度大打折扣。在大数据时代对数据进行深入挖掘的情况下,如何对信息进行立法保护和司法保护还基本属于法律空白。
(二)新的研究方法渗透至法学研究领域
在过去的年代,法学研究工作者常常利用抽样统计方法为法学研究服务。“统计中的抽样调查是指按照随机原则,从调查总体中抽取一部分单位进行观察,并用这一部分单位的数值去推断总体数量特征的一种统计方法。统计中的抽样调查有四个特点:一是其只调查总体中的一部分单位;二是用一部分单位的数据去推断总体的指标数值;三是抽选部分单位时一定要遵循随机原则;四是抽样调查中会产生抽样误差,抽样误差无法避免,但可以进行控制。”{13}这种方法的核心在于利用部分数据的特征推测整体数据的特征,并将误差控制在可接受的范围之内。抽样统计方法时常应用于法学研究,是经济法学派及其他法学流派常用的传统型分析工具之一。
然而,在大数据时代最大的科技创新之一便是云计算。“云计算是网格计算、并行计算、分布式计算、虚拟化、负载均衡等传统计算机和网络技术发展融合的产物。它是一种全新的计算方式和资源使用方式,普通用户可以十分方便的接入强大的IT资源并按需部署自己的服务,同时多种全新的业务模式能够得以实现,另外IT资源和服务能够从底层基础设施中抽象出来,这极大增强了资源的共享性和灵活性。”{14}100云计算这种科技可以提供强大的资源库和快捷、方便的计算模式,可以使统计方法发生彻底地革命。即从过去依靠抽样的统计方法进化到以全部数据为基础进行统计及分析的方法,从依靠部分数据推测整体数据特征的方法发展到通过对整体数据的分析与计算推演出整体数据的特征。这种统计方法的变革必然波及法学研究领域,为法学的研究方法带来新的源泉。法学工作者可以利用云计算的数据资源及虚拟技术定制符合法学研究的特定模式,通过对全部的法律数据进行统计与分析,得出比利用抽样统计方法更精确的结论。假以时日,这种新技术或新的研究方法会逐渐全面入侵法学研究领域,为法律工作者提供定制服务。
(三)开辟新的法学研究领域
数据的分析与使用是收集数据的关键点,也是大数据时代的核心价值。是否需要对数据的使用目的、使用方法、使用空间等作出限制?如果需要限制,限制的目的是什么?限制的标准是什么?限制的方法是什么?违反限制规则的法律后果是什么?例如,关于数据的使用目的问题,假如在收集数据时告知被收集数据的对象收集的数据将用于公意目的,是否可以在后续阶段将数据的使用目的进行变更?如果需要变更,需要履行哪些手续?
当数据如同知识、商誉、专利一样具有经济价值和社会价值时,数据的保护就变得迫在眉睫。大数据技术带给法律领域一系列问题的源头其实是数据危机,这种外部环境的危机恰恰开辟了法学研究的新领域:数据权。法学研究工作者需要在这个新领域中研究数据权的概念、数据权的性质和特征、数据权的主体、数据权的客体、数据权的内容、数据权的分类、国家数据权、法人(组织)数据权、公民数据权、人类数据权、数据权立法、数据权司法、数据权执法、数据权的救济、数据权交易制度等问题。
(四)促进有关数据的学科与法学的融合
三、大数据时代法学研究的新方向
(一)法学研究模式:重视团队合作研究
“‘研究模式’指在某一学科建设中所遵循的学术原则、理论体系的立足点、研究的视野和言说方式、基础理论的主攻方向、所运用的研究方法、研究者应具备的学识和素质等一整套范式和要求。”{20}本文所指的法学研究模式即在法学理论体系之内,为研究法律现象或法律问题等所运用的研究方法。
无论是博士研究生的培养方式,还是高校研究人员的工作模式,一般都是以个人单打独斗的形式为主导。普遍的现象是单独的个体收集学术资料、分析法律问题、撰写研究报告和发表学术论文等。即便在高校内部存在某某研究中心,即使该研究中心的研究人员人数蔚为客观,但是实际的情况是这些研究中心一般以松散的模式进行管理,学者仅挂靠在研究中心名下,只是定期参加该中心举办的活动或会议而已。虽然该中心的研究人员的研究方向一致,但在具体的学术研究过程中,仍然是每个个体在单独进行研究,真正意义上的团队合作类型的研究少之又少。这种法学研究模式的弊端在大数据时代将越来越严重阻碍法学发展的步伐。因为数据庞大而杂乱是大数据时代的一个显著特征,如果还是靠个体收集庞大的资料、分析海量的数据,将会使得法学研究的步伐缓慢而沉重。况且,个人的精力和学识都是有限的,在科技和由科技引发的新法律纠纷快速变化和发展的时代,如果还靠个体进行学术研究将很难跟上法学发展的步伐。
(二)法学研究对象:重视法与科技的关系
虽然不同的学者对法与科技的关系有不同的理解,但是不可否认的是法与科技的关系随着大数据时代的到来变得越来越紧密,彼此的依赖程度比以往时刻具有更大的粘性。大数据技术需要法律的保驾护航以使其快速、健康地发展,而法律需要大数据技术为其进步与发展提供技术支持。法学研究工作者应该将更多的目光定位在法与科技的相互作用与相互影响方面,充实法学的研究内容。
(三)法学研究领域:重视法学的跨学科研究和交叉学科研究
“跨学科是指两门或两门以上不同学科之间的相互联系,从思想的简单交流到较大领域内教育与研究的概念、方法、程序、认识论、术语、数据以及组织之间的相互联系。”{24}25跨学科研究在法学领域已经不是一个新鲜的词汇,自上世纪90年开始,就陆续有学者尝试及倡导跨学科研究,在实践当中,也确实有一批法学研究工作者在从事着跨学科研究。通常,“跨学科研究是指团队或者个体的一种研究模式,整合来自两门或两门以上的学科或专门知识体系中的信息、数据、技术、工具、观点、概念和/或理论,以提高基本知识或者解决某一学科或单一研究领域内所不能解决的问题。”{25}26然而,长期以来法学院的必修课基本为宪法及其他部门法,当然也包括马克思政治经济学和英语等,这种单一的以法学课程为主导的课程设计使得大多数从法学院毕业的科研工作人员只能以法学理论来研究法律问题,大多数研究人员只能在法学一级学科视域下进行跨二级学科的研究。当大数据以无可抵挡之势席卷整个社会、经济的时候,法学研究领域也悄然发生了变化。学科的分界线变得越来越模糊,现实的需要促使法学研究需要将重心与注意力集中到学科交叉的领域。
责任编辑:韩静
【注释】作者简介:丁春燕(1983-),女,北京密云人,武汉大学法学院与澳大利亚麦考瑞大学商务与经济学院联合培养博士研究生,法学讲师,从事法理学、网络法研究。
[1]我国对信息保护的政策法规有:《中华人民共和国计算机信息系统安全保护条例(1994年国务院147号令)》、《计算机信息系统安全保护等级划分准则(GB17859-1999)》、《国家信息化领导小组关于加强信息安全保障工作的意见(中办发[2003]27号)》、《关于信息安全等级保护工作的实施意见(公通字[2004]66号)》、《关于开展全国重要信息系统安全等级保护定级工作的通知(公信安[2007]861号)》、《关于开展信息安全等级保护安全建设整改工作的指导意见(公信安[2009]1429号)》和《关于推动信息安全等级保护测评体系建设和开展等级测评工作的通知(公信安[2010]303号)》。
[2]我国对信息保护的地方及行业规范有:《关于加强国家电子政务工程建设项目信息安全风险评估工作的通知(发改高技[2008]2071号)》、《水利网络与信息安全体系建设基本技术要求(2010年3月)》、《证券期货业信息系统安全等级保护基本要求(试行)(JR/T0060-2010)》、《山西省计算机信息系统安全保护条例(2009年1月)》、《广东省计算机信息系统安全保护条例(2008年4月)》、《宁夏回族自治区计算机信息系统安全保护条例(2009年10月)》和《徐州市计算机信息系统安全保护条例(2009年1月)》。
【参考文献】{1}BigData:ScienceinthePetabyteEra[J].nature,4September2008.
{2}FeliceFrankel,RosalindReid.Bigdata:Distillingmeaningfromdata[J].Nature,455(30),4September2008.
{3}Mackinsey&Company:BigData:thenextfrontierforinnovation,competition,andproductivity,May2011.
{4}财政部国库司.大数据时代:推开财政数据挖掘之门[M].北京:经济科学出版社,2013.
{5}BrianHopkingsandBorisEvelson,withSharynLeaver,ConnieMoore,AlexCullen,MikeGilpin,andMakenzieCahill:ExpandYourDigitalHorizonWithBigData,ForresterResearch,Inc.,September30,2011.
{7}BIGDATARESEARCHANDDEVELOPMENTINITIATIVE[J].OBAMAAdministration,March29,2012.
{8}UNGlobalPulse:BigDataforDevelopment:Challenges&Opportunities,May20124.
{9}Mackinsey&Company:Bigdata:Thenextfrontierforinnovation,competition,andproductivity,May2011,2.
{10}张新宝.隐私权的法律保护[M].北京:群众出版社,2004.
{11}彭万林.民法学[M].北京:中国政法大学出版社,1994.
{12}王利明.人格权法新论[M].长春:吉林人民出版社,1994.
{13}胡亚敏.统计抽样调查方法在审计中的运用[J].财会通讯,2009,(9):103.
{14}余侃.云计算时代的数据中心建设与发展[J].信息通信,2011,(6):100.
{15}中国人民大学统计学系.统计学与数据挖掘[J].统计与信息论坛,2002,(1):5.
{16}国务院关于印发中国(上海)自由贸易试验区总体方案的通知[Z].国发〔2013〕38号.
{17}LazerD,etal:ComputationalSocialScience[J].Science,2009.
{18}PaulM.Torrens:Geographyandcomputationalsocialscience[J].GeoJournal,2010:134.
{19}中华人民共和国刑法修正案(八)[Z].第二十四条.
{20}卢政,霍俊国.试论当前文艺学研究模式存在的问题及对策[J].晋阳学刊,2003,(5):100.
{21}陈甦.当代中国法学研究[M].北京:中国社会科学出版社,2009.
{22}张文显.法理学(第三版)[M].北京:法律出版社,2007.
{23}李龙.法理学[M].武汉:武汉大学出版社,2011.
{24}OECD:Interdisciplinarity:ProblemsofTeachingandResearchinUniversities[M].Paris:OECDPublications,1972.
{25}NationalResearchCouncil.FacilitatingInterdisciplinaryResearch[M].Washington,DC:TheNationalAcademiesPress,2004.
{26}周朝成.当代大学中的跨学科研究[M].北京:中国社会科学出版社,2009.
【期刊名称】《政法学刊》【期刊年份】2015年【期号】6
Sponsors:InstituteofLawandInstituteofInternationalLaw,ChineseAcademyofSocialSciences
Address:15ShatanBeijie,DongchengDistrict,Beijing100720