周翔:作为法学研究方法的大数据技术

测量工具上,以往较强依赖于社会资源的协调能力。中国法学界当前使用的测量工具中,问卷调查、模拟实验的应用较为普遍,而上述二法的共同局限在于严重依赖研究者的社会资源协调能力。很多研究并不避讳利用了作者的挂职身份、承担横向课题的机会、本省司法资源的便利条件等。就数据获取而言,即使只是选择几个投放点,也要付出很大的成本,且若没有较大经费支持则难以做到。上述列举的那些研究成果,因此往往是知名学者的作品。这也造就了一个怪圈:是先成名后做实证研究,还是因实证研究而成名而在大数据时代,研究者将在一定程度上不再依靠外部资源的协调能力。

语料获取是应用大数据技术的第一个环节。凡是对立法活动、司法实践有所记录的载体,都可作为实证研究的原始语料。当然,文本仍是当前法律大数据分析主要的语料类型,大数据技术目前还比较难以有效处理图片、音视频等数据。所幸的是,法律文书本来就是记录法律活动最重要的、也是表达相对准确的语言形式。

网络上的其他数据资源也不可被忽视。在传统的法学研究中,我们便已看到许多研究者用到法律年鉴、地方志等信息,而此类信息如今已基本实现无纸化、网络化。我们可从以下几个渠道收集与自己研究有关的语料:一是国家及地方各公立机构的官方网站,比如图书馆、档案馆、财政局等行政事业单位;二是各行业的商业机构网站,比如上市公司财务报表的披露网站、各行业的商业情报网站等;三是一些人气活跃的社区论坛,比如在司法公信力、媒体和司法之关系等研究议题中,我们关心的案件舆情就在论坛社区中有丰富的表达。网络资源可有效弥补裁判文书这一测量工具的局限性,因为法治事件的真实场景变量复杂,法律文书只能反映其中的一小部分。

语言表达方式虽然具有多样性,但也并非无穷无尽,常见的文字表达类型是可以由正则表达式囊括的。实践中的通常做法为:先人工阅读一部分文书,枚举语言表述的类型→通过正则表达出每种类型→正则遍历文书,筛选出被命中的文书→再次阅读部分未经匹配的文书→优化正则表达式→再次遍历剩余未被命中的文书。多次循环后,正则表达式将会得到很大的改进,信息提取的准确性也会随之提高。数据的获取任务至此完成,这也是大数据技术相较于传统实证研究在技术上的巨大变革之处,即数据的获取不再高度依赖于外部资源的多寡,只要研究者掌握了一定的编程能力,那么就可以从最大的数据资源库即互联网中获取自己想要的各类数据。

数据清洗面临两种情形,一种是从文本到数据的过程中存在信息的遗漏,另一种是有些文书信息虽然被提取了出来,但存在错别字或其他不当之处。处理信息残缺的方法,至少有以下几种:第一种是根据信息有残缺的文书编号,追溯至该份文书,人工阅读发现原因并修正提取的方法。这和上文提及的不断优化正则、扩大匹配的范围的做法很接近。第二种是统计学中处理残缺值的传统方法,比如用平均值替代、剔除该样本等。第三种是借助Excel表格中的工具、pandas等第三方库对数据逐一进行修正,通过人工的个别修正使数据回归正常。例如裁判文书中存在诸多错别字、语病等错误需要清洗,笔者曾遇到过某一罪名在裁判文书中,有十余种错误的文字表述、八种不同的“零”写法,这些均属于若无人工预判则机器便无法自动识别的情形。

大数据时代的分析环节,仍有运用描述性统计的必要。大数据时代虽然样本量呈几何式增长,但试图把握司法实践之一般规律的需求并未改变。而描述性分析是最有利于把握案件整体情况、聚焦重点案件类型的方法。

综上,笔者对待大数据技术的整体态度是,获取更大规模、更多类型的数据,对外部资源的依赖程度降低,是其最主要的贡献点,同时也要警惕研究过程中脱离个案细节、技术门槛提高、复杂模型的可解释性弱等风险。有效化解上述风险的策略包括:在跨越技术门槛上,可考虑借鉴其他学科团队式研究的模式,吸纳技术人员参与,改变过去一些法学期刊所认为的合署论文便有“搭便车”嫌疑的前见;在克服脱离个案细节这一问题上,则可以多采取混合研究的方法,即定性的方法和定量的方法相结合,实证研究和规范研究相结合;在数据分析时的算法选择上,则应尽可能选择一些原理简单、可解释性强的算法。

首先,大数据分析技术主要提高了研究对象的整体描述能力。实证研究中的描述性分析,针对研究对象设计变量,统计平均值、方差等。除这些外,大数据分析技术还有其他可供选择的方法,比如通过词频的计算提炼文本的关键词、通过情感分析的技术反映某些文本的正负情感及强度、通过文本摘要的技术浓缩海量文本的内容,分析的结果可以用词云、动图等多样的可视化方法来呈现。这些技术与实证分析中的描述性分析非常接近,只是起到丰富描述分析工具箱的作用。

最后,应清醒地认识到,某些大数据分析技术之所以难以引入到实证研究中,是因为大数据技术的发展动力来自商业市场的需求,其初衷不是为学术研究而开发的。因此,要区别大数据技术在工程领域和在学术领域的使用差别。工程领域要求大数据模型有较强的结果预测能力,不太重视输入变量与输出结果间发生联系的路径。这使得技术开发的着力点在于如何能够准确预测未来,例如市场中多款量刑辅助的产品提供给办案人员的,是一个案件未来可能判处的刑期结果,而不是提供充分的说理。而学术研究更关心法律现象背后的社会成因机制,希望揭示出现象背后的原因。上述二者虽有共同点(进行精准预测的前提,也要有一个基于历史案件的模型),但考核模型表现优劣的标准是极为不同的。知晓此种差异后,研究者才能对当前眼花缭乱的大数据分析技术有所甄别,优先选择那些具有较好可解释性的机器学习算法。

数据源和样本量的扩大,分析能力的增强,使得某些研究议题有机会变换新的角度、充实更有力的论据、得出更有说服力的结论。大数据技术作为一种方法并不直接产生新议题,但是能够增强旧有议题的论证能力,为原先难以量化研究的重要议题开启新的篇章。本节选取“法治中国”这一研究议题,尝试构想一个引入大数据技术后的学术发展新空间。

揭开大数据技术的面纱,我们可以看到,作为法学研究的一种新方法,大数据技术增强了我们获取数据、分析数据的能力,使得在更大时空范围内研究法治实践的规律成为了可能。

THE END
1.法意科技您当前的IP地址为:220.181.108.113 登录注册 忘记密码 全库案件总数 231517514 Created with Highcharts 7.0.3 法院案件库 116940463 检察案例库 5124643 行政执法案例库 5862046 政策法规库 3628103 数据项 462803510486 服务次数 10435+ 登录人数 29371+ 服服务支持 http://bigdata.lawyee.net/
2.中国司法大数据服务网为促进人工智能技术在司法领域的创新发展和深度应用,鼓励原始创新,突破关键技术,促进实战应用,加快形成智慧司法能力,支撑智慧法院建设,全面推进审判体系和审判能力现代化,自2018年起,由最高人民法院信息中心等多家单位指导支持,中国司法大数据研究院(最高人民法院智慧法院https://data.court.gov.cn/
3.大数据法律预测:为法律决策提供科学依据多模态数据处理:未来的法律预测任务将需要处理多模态数据,如文本、图像、音频等,这将需要更复杂的数据预处理和特征选择方法。 法律知识图谱构建:未来,大数据法律预测将需要构建法律知识图谱,以便更好地挖掘法律数据中的知识和规律。 法律人工智能系统开发:未来,大数据法律预测将需要与其他法律技术,如法律人工智能、法律机https://blog.csdn.net/universsky2015/article/details/135811399
4.法狗狗法律大数据分析系统 提供刑事和民事两大领域的类案分析系统,利用神经网络模型,基于5000万份文书,帮助用户一键生成多维度的深度分析报告 申请试用 产品介绍 搜索结果提取 根据搜索意图,自动提取关键信息,提高搜索效率 搜索结果高亮 对关键信息高亮标注,快速定位搜索内容https://fagougou.com/service/bigdata
5.涉外法律服务大数据平台上合法智谷为上合组织国家的企业和个人提供法律服务,在上合示范区打造集涉外法律服务产业、涉外法律学术研究、涉外法律配套赋能于一体的产业聚集区。https://www.scolegal.com/home
6.打造一站式互联网法律服务平台华政“互联网+法律”大数据平台揭牌高校发展线上互联网法律服务具有极大优势,可充分利用政府、律所、互联网公司、宣传媒体等相关资源协同创新,形成“互联网+法律”大数据平台共建、共享工作体系,最大限度集聚法律信息资源,实现多汇聚,发挥“平台+”理念,形成“平台+产品”“平台+信息”“平台+精英(律师、法官)”“平台+指数”“平台+智库”“平台+学科https://m.kankanews.com/detail/GWw3Mq5XkyJ
7.大数据法律快车法律百科频道为您提供生活中、学习中、工作中所遇到的各种法律问题,法律现象的法律解读。帮助您解决您的法律疑问。https://www.lawtime.cn/baike/view/12346966.html
8.大数据法律监督办案指引本书注重选择各地已经成熟、具有可复制推广价值的大数据检察案例,制成办案指引供全体检察人员学习、参考。相较于传统办案指引,大数据检察办案指引更加侧重介绍大数据检察办案方法,结合思维导图、数据模型等形式,更加直观、明了地引领检察官善于解析个案线索、梳理数据要素。 作者http://yuntaigo.com/book.action?recordid=bmZua25iYmM5Nzg3NTEwMjI3NTYx