周翔：作为法学研究方法的大数据技术|大数据中数据的清洗过程_家电

测量工具上，以往较强依赖于社会资源的协调能力。中国法学界当前使用的测量工具中，问卷调查、模拟实验的应用较为普遍，而上述二法的共同局限在于严重依赖研究者的社会资源协调能力。很多研究并不避讳利用了作者的挂职身份、承担横向课题的机会、本省司法资源的便利条件等。就数据获取而言，即使只是选择几个投放点，也要付出很大的成本，且若没有较大经费支持则难以做到。上述列举的那些研究成果，因此往往是知名学者的作品。这也造就了一个怪圈：是先成名后做实证研究，还是因实证研究而成名而在大数据时代，研究者将在一定程度上不再依靠外部资源的协调能力。

语料获取是应用大数据技术的第一个环节。凡是对立法活动、司法实践有所记录的载体，都可作为实证研究的原始语料。当然，文本仍是当前法律大数据分析主要的语料类型，大数据技术目前还比较难以有效处理图片、音视频等数据。所幸的是，法律文书本来就是记录法律活动最重要的、也是表达相对准确的语言形式。

网络上的其他数据资源也不可被忽视。在传统的法学研究中，我们便已看到许多研究者用到法律年鉴、地方志等信息，而此类信息如今已基本实现无纸化、网络化。我们可从以下几个渠道收集与自己研究有关的语料：一是国家及地方各公立机构的官方网站，比如图书馆、档案馆、财政局等行政事业单位；二是各行业的商业机构网站，比如上市公司财务报表的披露网站、各行业的商业情报网站等；三是一些人气活跃的社区论坛，比如在司法公信力、媒体和司法之关系等研究议题中，我们关心的案件舆情就在论坛社区中有丰富的表达。网络资源可有效弥补裁判文书这一测量工具的局限性，因为法治事件的真实场景变量复杂，法律文书只能反映其中的一小部分。

语言表达方式虽然具有多样性，但也并非无穷无尽，常见的文字表达类型是可以由正则表达式囊括的。实践中的通常做法为：先人工阅读一部分文书，枚举语言表述的类型→通过正则表达出每种类型→正则遍历文书，筛选出被命中的文书→再次阅读部分未经匹配的文书→优化正则表达式→再次遍历剩余未被命中的文书。多次循环后，正则表达式将会得到很大的改进，信息提取的准确性也会随之提高。数据的获取任务至此完成，这也是大数据技术相较于传统实证研究在技术上的巨大变革之处，即数据的获取不再高度依赖于外部资源的多寡，只要研究者掌握了一定的编程能力，那么就可以从最大的数据资源库即互联网中获取自己想要的各类数据。

数据清洗面临两种情形，一种是从文本到数据的过程中存在信息的遗漏，另一种是有些文书信息虽然被提取了出来，但存在错别字或其他不当之处。处理信息残缺的方法，至少有以下几种：第一种是根据信息有残缺的文书编号，追溯至该份文书，人工阅读发现原因并修正提取的方法。这和上文提及的不断优化正则、扩大匹配的范围的做法很接近。第二种是统计学中处理残缺值的传统方法，比如用平均值替代、剔除该样本等。第三种是借助Excel表格中的工具、pandas等第三方库对数据逐一进行修正，通过人工的个别修正使数据回归正常。例如裁判文书中存在诸多错别字、语病等错误需要清洗，笔者曾遇到过某一罪名在裁判文书中，有十余种错误的文字表述、八种不同的“零”写法，这些均属于若无人工预判则机器便无法自动识别的情形。

大数据时代的分析环节，仍有运用描述性统计的必要。大数据时代虽然样本量呈几何式增长，但试图把握司法实践之一般规律的需求并未改变。而描述性分析是最有利于把握案件整体情况、聚焦重点案件类型的方法。

综上，笔者对待大数据技术的整体态度是，获取更大规模、更多类型的数据，对外部资源的依赖程度降低，是其最主要的贡献点，同时也要警惕研究过程中脱离个案细节、技术门槛提高、复杂模型的可解释性弱等风险。有效化解上述风险的策略包括：在跨越技术门槛上，可考虑借鉴其他学科团队式研究的模式，吸纳技术人员参与，改变过去一些法学期刊所认为的合署论文便有“搭便车”嫌疑的前见；在克服脱离个案细节这一问题上，则可以多采取混合研究的方法，即定性的方法和定量的方法相结合，实证研究和规范研究相结合；在数据分析时的算法选择上，则应尽可能选择一些原理简单、可解释性强的算法。

首先，大数据分析技术主要提高了研究对象的整体描述能力。实证研究中的描述性分析，针对研究对象设计变量，统计平均值、方差等。除这些外，大数据分析技术还有其他可供选择的方法，比如通过词频的计算提炼文本的关键词、通过情感分析的技术反映某些文本的正负情感及强度、通过文本摘要的技术浓缩海量文本的内容，分析的结果可以用词云、动图等多样的可视化方法来呈现。这些技术与实证分析中的描述性分析非常接近，只是起到丰富描述分析工具箱的作用。

最后，应清醒地认识到，某些大数据分析技术之所以难以引入到实证研究中，是因为大数据技术的发展动力来自商业市场的需求，其初衷不是为学术研究而开发的。因此，要区别大数据技术在工程领域和在学术领域的使用差别。工程领域要求大数据模型有较强的结果预测能力，不太重视输入变量与输出结果间发生联系的路径。这使得技术开发的着力点在于如何能够准确预测未来，例如市场中多款量刑辅助的产品提供给办案人员的，是一个案件未来可能判处的刑期结果，而不是提供充分的说理。而学术研究更关心法律现象背后的社会成因机制，希望揭示出现象背后的原因。上述二者虽有共同点(进行精准预测的前提，也要有一个基于历史案件的模型),但考核模型表现优劣的标准是极为不同的。知晓此种差异后，研究者才能对当前眼花缭乱的大数据分析技术有所甄别，优先选择那些具有较好可解释性的机器学习算法。

数据源和样本量的扩大，分析能力的增强，使得某些研究议题有机会变换新的角度、充实更有力的论据、得出更有说服力的结论。大数据技术作为一种方法并不直接产生新议题，但是能够增强旧有议题的论证能力，为原先难以量化研究的重要议题开启新的篇章。本节选取“法治中国”这一研究议题，尝试构想一个引入大数据技术后的学术发展新空间。

揭开大数据技术的面纱，我们可以看到，作为法学研究的一种新方法，大数据技术增强了我们获取数据、分析数据的能力，使得在更大时空范围内研究法治实践的规律成为了可能。

THE END

周翔：作为法学研究方法的大数据技术

数据清洗（数据清洗的基本流程）

数据清洗的概念常见问题及实践方法

租赁大数据看板建设过程中数据清洗及程度思考数据源空值数据量

应对大数据集成挑战：解决大数据集成过程中遇到的困难！

数据清洗研究综述20231108.docx

专注企业集成，JoyingPoint一体化的iPaas集成平台

周翔：作为法学研究方法的大数据技术

CDALEVELⅡ?数据分析师考试?纲

Cleanits：制造业时序数据清洗系统传媒

论文目录与摘要

大数据处理流程包括哪些大数据处理流程包括什么常见问题

财务大数据实训步骤5篇

基于清洗方式的“脏”数据分类大数据技术文章

干货来了！快速教你数据清洗的步骤及方法明月说数据