周翔:作为法学研究方法的大数据技术

测量工具上,以往较强依赖于社会资源的协调能力。中国法学界当前使用的测量工具中,问卷调查、模拟实验的应用较为普遍,而上述二法的共同局限在于严重依赖研究者的社会资源协调能力。很多研究并不避讳利用了作者的挂职身份、承担横向课题的机会、本省司法资源的便利条件等。就数据获取而言,即使只是选择几个投放点,也要付出很大的成本,且若没有较大经费支持则难以做到。上述列举的那些研究成果,因此往往是知名学者的作品。这也造就了一个怪圈:是先成名后做实证研究,还是因实证研究而成名而在大数据时代,研究者将在一定程度上不再依靠外部资源的协调能力。

语料获取是应用大数据技术的第一个环节。凡是对立法活动、司法实践有所记录的载体,都可作为实证研究的原始语料。当然,文本仍是当前法律大数据分析主要的语料类型,大数据技术目前还比较难以有效处理图片、音视频等数据。所幸的是,法律文书本来就是记录法律活动最重要的、也是表达相对准确的语言形式。

网络上的其他数据资源也不可被忽视。在传统的法学研究中,我们便已看到许多研究者用到法律年鉴、地方志等信息,而此类信息如今已基本实现无纸化、网络化。我们可从以下几个渠道收集与自己研究有关的语料:一是国家及地方各公立机构的官方网站,比如图书馆、档案馆、财政局等行政事业单位;二是各行业的商业机构网站,比如上市公司财务报表的披露网站、各行业的商业情报网站等;三是一些人气活跃的社区论坛,比如在司法公信力、媒体和司法之关系等研究议题中,我们关心的案件舆情就在论坛社区中有丰富的表达。网络资源可有效弥补裁判文书这一测量工具的局限性,因为法治事件的真实场景变量复杂,法律文书只能反映其中的一小部分。

语言表达方式虽然具有多样性,但也并非无穷无尽,常见的文字表达类型是可以由正则表达式囊括的。实践中的通常做法为:先人工阅读一部分文书,枚举语言表述的类型→通过正则表达出每种类型→正则遍历文书,筛选出被命中的文书→再次阅读部分未经匹配的文书→优化正则表达式→再次遍历剩余未被命中的文书。多次循环后,正则表达式将会得到很大的改进,信息提取的准确性也会随之提高。数据的获取任务至此完成,这也是大数据技术相较于传统实证研究在技术上的巨大变革之处,即数据的获取不再高度依赖于外部资源的多寡,只要研究者掌握了一定的编程能力,那么就可以从最大的数据资源库即互联网中获取自己想要的各类数据。

数据清洗面临两种情形,一种是从文本到数据的过程中存在信息的遗漏,另一种是有些文书信息虽然被提取了出来,但存在错别字或其他不当之处。处理信息残缺的方法,至少有以下几种:第一种是根据信息有残缺的文书编号,追溯至该份文书,人工阅读发现原因并修正提取的方法。这和上文提及的不断优化正则、扩大匹配的范围的做法很接近。第二种是统计学中处理残缺值的传统方法,比如用平均值替代、剔除该样本等。第三种是借助Excel表格中的工具、pandas等第三方库对数据逐一进行修正,通过人工的个别修正使数据回归正常。例如裁判文书中存在诸多错别字、语病等错误需要清洗,笔者曾遇到过某一罪名在裁判文书中,有十余种错误的文字表述、八种不同的“零”写法,这些均属于若无人工预判则机器便无法自动识别的情形。

大数据时代的分析环节,仍有运用描述性统计的必要。大数据时代虽然样本量呈几何式增长,但试图把握司法实践之一般规律的需求并未改变。而描述性分析是最有利于把握案件整体情况、聚焦重点案件类型的方法。

综上,笔者对待大数据技术的整体态度是,获取更大规模、更多类型的数据,对外部资源的依赖程度降低,是其最主要的贡献点,同时也要警惕研究过程中脱离个案细节、技术门槛提高、复杂模型的可解释性弱等风险。有效化解上述风险的策略包括:在跨越技术门槛上,可考虑借鉴其他学科团队式研究的模式,吸纳技术人员参与,改变过去一些法学期刊所认为的合署论文便有“搭便车”嫌疑的前见;在克服脱离个案细节这一问题上,则可以多采取混合研究的方法,即定性的方法和定量的方法相结合,实证研究和规范研究相结合;在数据分析时的算法选择上,则应尽可能选择一些原理简单、可解释性强的算法。

首先,大数据分析技术主要提高了研究对象的整体描述能力。实证研究中的描述性分析,针对研究对象设计变量,统计平均值、方差等。除这些外,大数据分析技术还有其他可供选择的方法,比如通过词频的计算提炼文本的关键词、通过情感分析的技术反映某些文本的正负情感及强度、通过文本摘要的技术浓缩海量文本的内容,分析的结果可以用词云、动图等多样的可视化方法来呈现。这些技术与实证分析中的描述性分析非常接近,只是起到丰富描述分析工具箱的作用。

最后,应清醒地认识到,某些大数据分析技术之所以难以引入到实证研究中,是因为大数据技术的发展动力来自商业市场的需求,其初衷不是为学术研究而开发的。因此,要区别大数据技术在工程领域和在学术领域的使用差别。工程领域要求大数据模型有较强的结果预测能力,不太重视输入变量与输出结果间发生联系的路径。这使得技术开发的着力点在于如何能够准确预测未来,例如市场中多款量刑辅助的产品提供给办案人员的,是一个案件未来可能判处的刑期结果,而不是提供充分的说理。而学术研究更关心法律现象背后的社会成因机制,希望揭示出现象背后的原因。上述二者虽有共同点(进行精准预测的前提,也要有一个基于历史案件的模型),但考核模型表现优劣的标准是极为不同的。知晓此种差异后,研究者才能对当前眼花缭乱的大数据分析技术有所甄别,优先选择那些具有较好可解释性的机器学习算法。

数据源和样本量的扩大,分析能力的增强,使得某些研究议题有机会变换新的角度、充实更有力的论据、得出更有说服力的结论。大数据技术作为一种方法并不直接产生新议题,但是能够增强旧有议题的论证能力,为原先难以量化研究的重要议题开启新的篇章。本节选取“法治中国”这一研究议题,尝试构想一个引入大数据技术后的学术发展新空间。

揭开大数据技术的面纱,我们可以看到,作为法学研究的一种新方法,大数据技术增强了我们获取数据、分析数据的能力,使得在更大时空范围内研究法治实践的规律成为了可能。

THE END
1.大数据什么是数据清洗?(附应用嘲及解决方案)数据清洗是一个耗时的过程,尤其是在数据量大和数据质量差的情况下,需要投入大量的时间和资源。 通过使用专业的数据处理工具,如FineDataLink,可以有效地解决数据清洗的痛点,提高数据处理的效率和质量。FineDataLink提供了多种可视化算子和功能,如新增计算列、数据过滤、数据关联等,帮助用户快速完成数据清洗和处理,无需编https://blog.csdn.net/oOBubbleX/article/details/140350709
2.大数据进行数据清洗的基本流程详细讲解数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。 1.数据分析 数据分析是数据清洗的前提和基础,通过人工检测或者计算机分析程序的方式对原始数据源的数据进行检测分析,从而得出原始数据源中存在的数据质量问题。 https://www.jianshu.com/p/33ad3063c7ce
3.大数据处理流程中数据清洗工作是在()阶段完成。大数据处理流程中数据清洗工作是在()阶段完成。 "大数据处理流程中数据清洗工作是在()阶段完成。"这道题的答案是什么呢,答案在下文中哦。 大数据处理流程中数据清洗工作是在()阶段完成。 A.数据采集 B.数据预处理和导入 C.数据存储和管理 D.数据分析和挖掘https://www.duote.com/tech/tiku/279635.html
4.大数据应用导论Chapter02大数据的采集与清洗一、数据采集的方法 什么是数据采集? 从互联网、传感器和信息系统等来源获取所需要数据的过程。 它是大数据分析流程的第一步。 下图为数据采集在各行业的应用: 上图中的不同行业会从不同的地方获取数据,通过汇总不同的数据信息,就能得到得到更大更全的数据集。 https://blog.51cto.com/14683590/5236225
5.大数据应用的开发流程数据清洗过程可以较简单,也可以较复杂。可以通过向数据缺失位置添加某值的方式简单完成数据清洗(含个人理解);也可以通过复杂的机器学习模型清洗数据。 数据清洗可借助ETL软件(根据百度百科:ETL是数据仓库技术)。一般,数据被清洗后,数据量较大,无法存储于计算机内存中,因此,需将数据存储于HDFS(数据存储)中或其他大数据存https://www.elecfans.com/d/2015923.html
6.大数据毕设基于Hadoop的音乐推荐系统的设计和实现(六)随着音乐行业的不断发展和热爱音乐的人不断增加,为了适应当今社会人们追求质量和高标准的生活,从大量的歌曲中找到个人喜好的小部分歌曲成了当务之急,然而普通的系统已经无法处理这种相当大的数据,然而基于大数据的音乐推荐系统作为可以解决这个重要难题的主要解决办法,其方法的好用程度已经成为了人类高标准生活的重要的一https://developer.aliyun.com/article/1404874
7.《大数据技术入门》课件第5章数据清洗.ppt本章小结 1)数据的不断剧增是大数据时代的显著特征,大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。 2)数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,它研究和解决从数据库中获取信息的问题,并为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 3)ETL是数据仓库中的非常https://m.book118.com/html/2022/0821/7145130056004155.shtm
8.数据清洗流程包括哪些步骤?数据清洗是指对采集的数据进行初步处理,使其符合分析要求和标准,从而提高数据质量和可信度的过程。数据清洗流程包括以下六个步骤: 数据收集 数据收集是数据清洗的第一步,这个步骤是获取数据的初始状态,可以是从数据库、API、爬虫等多种途径获得数据。在这一步骤中需要注意的是,要根据需求选择适当的数据源,并确保数据https://www.cda.cn/bigdata/202779.html
9.大数据分析的基本步骤大数据分析的基本步骤.中琛魔方大数据分析平台(www.zcmorefun.com)表示在大数据收集、处理等一系列操作之前,通过对应用情境的充分调研、对管理决策需求信息的深入分析,可明确大数据处理与分析的目标,从而为大数据收集、存储、处理、分析等过程提供明确的方向,并保障大数据分析结果的可用性、价值性和用户需求的满足。https://www.qianjia.com/zhike/html/2020-06/3_24986.html
10.python在大数据分析中有什么应用python在大数据分析中有多个应用场景,如数据清洗和处理、数据可视化、机器学习和深度学习、自然语言处理等。此外,python在大数据分析中具有一些独特优势,包括开源免费、简单易学、提供了丰富的库和工具,且拥有高效的计算能力。 一、python在大数据分析中的应用场景 https://www.linkflowtech.com/news/1654
11.大数据技术技能分析大赛——第三章数据预处理简介:数据预处理是大数据分析的重要环节,通过数据清洗、集成、变换和规约等步骤,将原始数据转化为可被分析和利用的形式。本文将介绍数据预处理的常用方法和技巧,并探讨如何在实际应用中发挥其作用。 即刻调用文心一言能力 开通百度智能云千帆大模型平台服务自动获取1000000+免费tokens 立即体验 在大数据时代,数据已经成为企https://developer.baidu.com/article/detail.html?id=2794458
12.你还在为数据清洗头疼吗?一文帮你梳理数据清洗六大常见问题数据清洗是整个数据分析过程中不可缺少的一个环节,这个环节将重复、多余的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或去除,从而提升数据质量,提供给上层应用调用。 数据常见的问题可以分成六类“数据缺失值”、”数据值不匹配“、“数据重复”、”数据不合理“、“数据字段格式不统一“、”数据无用“,针对https://www.fanruan.com/bw/sjqx-2
13.浅谈大数据审计在实际开展过程中存在的问题及思考其他近几年整理一级预算单位财务数据和标准化时,发现部分基层审计机关计算机设备老旧,完成一级预算单位财务数据和标准化有相当大的压力。主要原因是以前年度对大数据审计的开展做前期规划考虑不周,加之近两年推行计算机国产化,而国产计算机及操作系统在开展大数据审计过程中的便捷性、通用性和计算机性能与以前开http://xjbz.gov.cn/xjbz/c101582/202210/083bc2ab5f7546068227a4fe528e26f1.shtml