当前,信息技术的快速变革正对传统的社会结构、生活方式与商业模式产生深刻影响,作为伴随新技术、新工具、新媒介产生和演变的新型犯罪类型,网络犯罪呈现滋生蔓延之势,犯罪手段不断翻新,手法高度隐蔽,严重影响人民群众的安全感和社会公共利益。在这样的形势下,通过依法打击网络犯罪净化网络生态,推动网络空间多元共治责任重大、意义深远。
随着互联网和计算机技术的发展,理论和实务界对于网络犯罪的认识不断加深,对其内涵和外延的界定也在不断更新。我国刑法中的网络犯罪可分为两类:一是针对信息网络的犯罪,即学术界定义的“纯正的网络犯罪”,如破坏计算机信息系统、非法控制计算机信息系统等;二是利用信息网络或在网络空间实施的犯罪,即“不纯正的网络犯罪”,如通过计算机网络实施的侵财类犯罪、网络平台非法集资、侵犯公民个人信息与数据安全犯罪等。也有新观点认为网络犯罪还包括妨害网络业务、网络秩序的犯罪。2022年8月出台的《关于办理信息网络犯罪案件适用刑事诉讼程序若干问题的意见》(法发〔2022〕23号)第1条中还规定了一类网络犯罪类型:拒不履行信息网络安全管理义务、非法利用信息网络、帮助信息网络犯罪活动的犯罪。
纵观国内外网络犯罪现状,这一犯罪类型呈现出以下三大特点。一是技术、工具依赖性明显,不论是针对信息网络的犯罪,还是利用信息网络或在网络空间实施的犯罪,均与网络、系统、终端等工具产品密不可分,而且专业化程度越来越高,最新技术手段往往为不法分子所利用,网络犯罪经历了网络由“犯罪对象”到“犯罪工具”,再到“犯罪空间”的演变。二是链条化、产业化态势明显,很多网络犯罪行为不仅有组织、有预谋,而且呈现出集团化特征,甚至出现了提供专门设施设备和资金、服务的黑灰产市场,上下游关联性极强。三是跨地域特征明显,网络的存在使得跨省、市甚至是跨境犯罪日趋常态化,很多不法分子为躲避监管将作案工具、平台等置于境外,而境外取证成本高、难度大,网络犯罪治理亟需加大国际合作。
网络犯罪司法的中心任务是有效使用电子证据进行网络犯罪案件事实的重建。在以审判为中心的刑事诉讼制度改革背景下,对电子数据这一证据形态的审查是使得网络犯罪案件达到“案件事实清楚,证据确实充分”法定标准的关键之一,本文针对网络犯罪应当坚持的技术与法律双重标准,基于电子数据的双重载体特性,以审查判断规则的标准化、证据标准的数据化和证据的智能化审查为目标,提出一种应用知识图谱人工智能技术为电子数据审查判断标准进行数据化建模的新方法,尝试为网络犯罪案件办理和网络空间治理能力现代化提供数字赋能的新路径。
电子数据的概念最初源于1991年在美国召开的第一届国际计算机调查专家会议提出的“计算机证据(ComputerEvidence)”,并被翻译为“电子证据”“电子物证”“数字证据”等,而最终以“电子数据”这一名称在法律层面进行统一,指信息数字化过程中形成的以数字形式存在的能够证明案件事实情况的数据。
电子数据具有三大特征:容易产生、容易获得、容易被修改,正是由于其容易被修改,而一旦被修改,证据的效力就无从谈起,电子数据的存储形式、介质的特殊性及产生方式决定了它很容易被修改、伪造、破坏、篡改甚至灭失,有些改动易于识别,而有些需通过复杂的专业技术手段加以甄别,因而在司法实践中也是辩护方质疑的重点之一。因此,电子数据的真实性审查是首要和关键的问题。
在此基础上,《办理网络犯罪案件规定》又分别对原始存储介质、数据镜像、线下提取的电子数据、在线提取的电子数据、冻结的电子数据、调取的电子数据的真实性和完整性的特殊审查内容予以细化,如对数据镜像,需要审查制作数据镜像的工具、方法、过程等必要信息,可操作性更为具体明确。
形式合法性审查贯穿电子数据从提取到保管、转移、鉴定等证据保管(监督)链的闭环全过程,对于通过不同取证方式获取的电子数据,法律法规已有较为明确的规定,《办理网络犯罪案件规定》等对扣押原始存储介质、数据镜像、线下提取的电子数据、在线提取的电子数据、冻结的电子数据、调取的电子数据、检查和侦查实验报告、鉴定意见(检验报告)等分别提出了需要注重审查的内容。如对电子数据进行检查、侦查实验,其合法性审查内容包括:(1)是否记录检查过程、检查结果和其他需要记录的内容,并由检查人员签名或者盖章;(2)是否记录侦查实验的条件、过程和结果,并由参加侦查实验的人员签名或者盖章;(3)检查、侦查实验使用的电子设备、网络环境等是否与发案现场一致或者基本一致;(4)是否使用拍照、录像、录音、通信数据采集等一种或者多种方式客观记录检查、侦查实验过程。
实质合法性审查可理解为审查取证操作是否遵循技术标准。这里的技术标准指目前我国电子数据提取和鉴定领域的各项标准与技术规范,主要包括国家标准、认证认可行业标准规范、司法鉴定技术规范和公共安全行业标准等,具体包含以下三个层次:
(3)该专业领域多数专家认可的技术方法:有学者认为,所谓该专业领域多数专家认可的技术方法包括该专业领域知名技术组织或者科学书籍、学术期刊公布的方法、仪器设备制造商指定的方法以及其他机构使用的成熟方法,实际上,其属于未经过有权部门确认的具有行业性质的“行业技术方法”,在适用上,这些技术方法不仅要科学,更需要可重复性,得到该领域多数专家认可。
一般而言,电子数据领域的各项标准与技术规范侧重于对仪器设备(硬件和软件)、操作步骤、操作记录、结果等,相对于法律法规规定而言对操作程序的指引更为细致、语言表述的行业技术性更强,对这些标准的严格遵守是对科学方法的尊重,能够最大限度地保证电子数据取证和鉴定的质量。需要指出的是,虽然电子数据领域多为推荐性、指导性标准,但只要鉴定机构在意见或报告中明确了采用的标准就应当受到标准约束,成为实质合法性审查的依据。
电子数据的关联性,亦可按形式和实质进行分类:形式关联性解决行为人与电子数据及存储区介质的物理关联,即载体关联性,也可称指向标准,属证据资格审查的范畴,解决关联性有与无的问题;实质关联性指电子数据所承载的信息与案件事实存在客观的内在联系,这种内在联系具体表现为,电子数据所承载的信息应当是证明待证案件事实的全部或一部分信息,也可称为内容关联性或功能标准,属证明力审查的范畴,解决的是证明力大小的问题。笔者认为,从证据标准化的角度,刑事案件特别是网络犯罪案件对电子数据关联性的审查可以围绕电子数据与犯罪构成要件认定之间的关联性展开,即电子数据对于犯罪主体、主观方面、犯罪客体和客观方面的证明作用。
尽管电子数据已被越来越多的理论学者和司法实务人员认作当代证据学领域效力最优的证据之一,但面向传统犯罪的电子数据取证程序以及收集、审查规则规范在网络犯罪语境中呈现出一些现实难题,较为突出的有以下几方面。
一是海量数据取证问题。网络犯罪面临计量对象海量化,海量电子数据的使得犯罪事实的证明和认定不再如传统犯罪那般简单与迅捷。虽然大数据证明代表了以算法为核心的证明方式变革方向,但其推广应用还有待算法的突破和应用的迭代完善。在这种情况下,按比例对电子数据进行抽样取证成为实践中较为常用的做法。正因如此,《关于办理信息网络犯罪案件适用刑事诉讼程序若干问题的意见》第20条第一款专门对比例原则的适用进行了说明和规定,在这样的情形下,针对个案如何科学地选取电子数据审查的对象和检材、如何证明选取的对象和检材确实包含了所有证据材料的性质、特征、功能,如何科学地确定比例数值、如何系统客观地开展说明论证,等等,将是审查的重点和难点所在。
二、电子数据审查判断规则的数据化建模
证据是诉讼的核心要素,是裁判的基石,对于保证案件质量、实现司法公正具有关键性的作用。证据标准的制定实施将有效引导办案人员按照法律规定的证明标准、证据规则以及办案程序全面合法地收集、固定证据,从根本上解决诉讼过程中证据标准不统一带来的司法不公问题,规范司法裁量权,减少司法任意性,确保每一件案件都经得起法律的检验。
尽管证据标准的制定可以解决制度层面的问题,但在操作层面这些标准如何与办案工作紧密结合是影响其效果发挥的关键所在。当前,随着数字中国、政法大数据、司法人工智能等国家战略的大力实施,公、检、法、司各系统通过再造办案流程、办案规范,网上信息化办案已逐渐取代以往的传统办案模式,科技运用不断赋能高质量发展,国家治理现代化水平得到显著提升。一方面,案件流转、文书制作、电子印章等业务办理基本功能已趋于稳定成熟,另一方面,大数据、人工智能、区块链等前沿技术在音视频智能分析、电子阅卷等智能化办案辅助领域的应用正全面推开,还有一些地区逐步打通单位间的信息壁垒,政法网络的互联互通、政法数据的共享共用极大地提升了办案效率,毫无疑问,诉讼全流程电子卷宗网上流转的办案新模式必将成为未来案件办理的主流。在这样的形势下,在现有信息化系统的基础上探索将证据标准嵌入办案流程,将充分发挥信息化手段对案件办理起到的规范化作用,促进刑事诉讼整体提质、增效。因此,在技术层面将证据标准嵌入办案流程,即实现证据标准的数据化,是落实制度层面证据标准的一种重要实践手段,更是政法协同办案迈向智能化的关键环节。
证据标准的数据化,是指将证据标准转化为由数字化符号逻辑表示的计算机可以运算、推理的证据标准体系。与之相对应的,是个案信息的识别、提取与归类,同时辅以人工标注、核对和校准,从而实现个案要素信息的结构化。基于以上两项主要工作,计算机就可以将结构化的个案信息与嵌入办案流程的证据标准自动关联匹配,实现对证据的摘录、甄别和处理,达到自动检验收集程序、形式要件和内容要素是否合规和合法的目的,进而对证据链进行逻辑分析,判断证据是否合理、证据之间有无矛盾,以解决证据的收集和使用过程中存在的两大难题。
数据化的证据标准以计算机可以识别的符号、关系和规则表达式为外在形式,但其内在语义仍然是法律语境下的证据规则体系,因此该过程属于以应用为目标的特定领域建模,即将司法实践中的证据标准映射到逻辑数学模型上。为了实现模型构建,需要事先对证据标准体系进行层次式分析。通用的建模技术一般采取自顶向下或自底向上分析法、图谱分析法等等。证据标准体系具有层次交错的特点,首先,证据标准可以分为一般证据标准和各罪名证据标准,如贵州省出台的基本证据要求分为两个部分:一般规定和常见类型案件的个别化证据要求;第二,证据的种类可以有多个层次,一是基本种类,包括刑事诉讼法规定的物证、书证、证人证言等若干大类,二是收案信息、立案材料、破案材料等具体证据材料分类,再进一步可以具体到法律文书和工作文书的不同种类;第三,按照证据收集固定的阶段,可以按照立案阶段、侦查阶段、审查逮捕阶段、审查起诉阶段等将证据归类;此外,还可以按犯罪情节的证据、定罪量刑的证据划分,等等。因此对证据标准体系分析宜采用网状图谱式结构,构建法律法规、证据审查等多维度的思维导图。
对证据标准体系建模,其手段就是要借助大数据、人工智能技术改造证明标准,目的是实践证明标准的具体化,有文献指出,人工智能的运作逻辑其实是“基于知识或信息的逻辑”与“基于规则的逻辑”的统一,人工智能工作的对象是将大量的案件事实与法律规则处理为知识、信息,其原理是从知识数据库中归纳出模型(建模)并运用于新案件,所以智能系统最关键的任务就是建立有关法律领域的概念模型。而这种概念模型,并非只是简单地描述证据的概念,而应当表达更为丰富的逻辑关系,成为完整的证据标准体系,才能形成法律知识库用于规则推理和案例分析。
证据标准模型的作用体现在:模型嵌入计算机系统后,系统可以进行证据的逻辑排列组合,也可以根据设定的证据审查规则供计算机进行判断比对,或者进行案例的机器学习和推理训练。对于具体的案件,嵌入模型的智能辅助系统可以自动从法律文本中提取出证据实体要素,根据证据的概念模型进行元素解构,建立实体、推理属性值、构造实体间的关系,并按照规则模型逐一进行规则判断。
在司法实践中,证据的载体通常是各类具有法律意义的非结构化文本,需要通过计算机的智能化处理转化为易于分析计算的结构化数据。法律文本以自然语言描述,而且包含大量的法律领域术语词汇,能否准确反映文本中的语义关系、抽取法律元素,是选取证据标准模型必须考量的主要因素。因此证据标准的数据化需要采用一种既能表达丰富的实体间关系,又能够理解和分析语义、适合进行规则推理的建模框架。
另一方面,当前数据化的证据标准领域研究还存在以下几个问题:一是主要停留在“证据规格”层面而非“证明”层面,虽然实现了统一的数据化的证据标准,但还不是统一的数据化的证明标准,二是系统功能主要集中于证据的数量及合法性审查方面,对于机器如何审查判断证据关联性、真实性等问题尚未解决,三是系统在证据合法性自动审查方面主要是形式审查,在实质审查方面还存在一些障碍。
知识图谱以结构化的形式描述客观世界中概念、实体及其关系。具体地说,知识图谱一般由概念、实体、属性、关系和推理规则等构成,其中,概念是对客观世界中具有相同属性事物的抽象,是将人们对世界认知联系在一起的纽带,实体是概念的实例化描述,属性是对概念或实体的信息描述,关系是概念、实体或属性之间的关联,包括了概念之间的层次关系、属性与值的关系、概念与实体的对应关系,等等,推理规则是用以进行关系、属性值等推理的形式逻辑。随着法律人工智能的兴起与行业应用的逐渐落地,法律行业的知识图谱正在成为学界研究的热点问题之一,法律知识图谱的构建是人工智能司法应用的先决问题。完全的法律知识图谱应当覆盖法律法规、司法案例、证据指引等多个知识库子集,且涵盖刑事、民商事等多个领域,虽然构建过程将较为漫长,但其在司法办案、案例检索、律师行业、法律普及等方面应用前景值得期待。目前各子领域的研究都尚处于探索和实践阶段,鉴于证据标准化建模在智能辅助办案中的关键性作用,利用知识图谱技术对证据标准建模将具有重要理论和实务价值。
证据标准的数据化建模,其核心是法律知识和法律事实的计算机表示和推理。本章以电子数据为主要对象进行证据标准的知识图谱数据化建模,方法的主要框架是:从证据的基本分类和电子数据的审查判断规则入手,层层递进展开,形成模式层的知识图谱,再针对网络犯罪具体案件构建数据层知识图谱,最后将数据层实例与模式层实体进行匹配,辅助办案人员完成证据的综合审查判断。
模式层的知识图谱建立以后,系统要能够自动完成规则推理,还需要对具体案件建立个案法律知识图谱,即数据层知识图谱。数据层知识图谱的建立有以下几个关键环节。一是要素提取,即在电子卷宗基础上建立“要素-证据”关联机制,由系统OCR技术识别结合法律语料库提取证据元素实体,进行关系抽取、属性识别和属性值填充。二是实体消歧和实体统一,在采用实体链接技术对实体做匹配时,需要进行实体消歧和实体统一操作。实体消歧是机器在自然语言理解过程中,面对同一个词组在不同的上下文中所表达的不同含义而做的技术区分,使之指向不同的实体;实体统一也称作共指消解,是在两个用不同的方式表达的实体指向同一个语义时所指向同一实体的技术处理。三是分类标注,即类别标签标注,该操作既可以用来解决实体之间的消歧,也可以增强实体的语义。标注一般采用先自动后人工的方式,即首先采用文本分类技术由机器为要素打标签,后期由人工进行校正。四是关系、属性推理。实体建立完成之后,系统根据预设规则进行关系的推理和属性的识别与填充。五是模式匹配,即将模式层概念与数据层实例进行匹配,实现实例与概念实体、实例与属性的关联,完成数据层知识图谱的构建。
个案数据层知识图谱建立完成之后,系统逐一读取计算机形式化语言表述的规则文档表述的证据审查判断规则,提取规则所需的实体元素进行运算,得到运行结果,辅助司法人员对每一证据的真实性、合法性、关联性进行审查判断。
从本体的观点看,节点之间的关系可以分为二元关系和多元关系,二元关系主要包括:EQU(等同)、SUB(子集)、ALI(相似)、DIS(无关)、CAU(因果)、ORD(序)、PAR(属性)、SKO(信息依赖)等;多元关系主要包括:FPAR(子图)、NEGPAR(否定)、POSPAR(可能性)、NECPAR(必要性)等。每种基本的关系还有各种具体关系形式,如“……是……”这样的“ISA”关系就是FPAR关系的一种形式。这些关系通过知识图谱中节点与节点连接的边来体现。
为了建立证据标准的知识图谱模型,本文首先采用OWL对证据的概念体系进行语义层面的描述,并将“证据”作为顶层本体(一级本体)。刑事诉讼法规定了八大类证据:(一)物证;(二)书证;(三)证人证言;(四)被害人陈述;(五)犯罪嫌疑人、被告人供述和辩解;(六)鉴定意见;(七)勘验、检查、辨认、侦查实验等笔录;(八)视听资料、电子数据,以此为依据建立八个二级本体。需要指出的是,尽管现行诉讼法将电子数据与鉴定意见和勘验、检查、侦查实验笔录并列,但在司法实务中,电子数据勘验检查和检验鉴定是网络犯罪侦查办案不可或缺的重要手段,同时在证据学理论中均遵循洛卡德交换原理,因此对电子数据的审查判断特别是真实性、合法性的审查应当涵盖电子数据勘验、检查、侦查实验笔录以及电子数据鉴定意见、检验报告等,而且对电子数据的关联性审查离不开其他几种证据类型,故本文模型涵盖所有八个二级本体。对于具体的证据种类,如“网络通信信息”“远程勘验笔录”等,建立三级本体,然后顺次向下建立直至该本体为原子类型不可再分。
对于本文建立的模式层证据标准而言,规则主要是指以语义表示语言描述的证据审查判断规则。结合上文模式层证据本体的构建,这里我们采用语义Web规则语言(SWRL)对规则建模。SWRL的核心是以“推理前提推理结果”作为规则的表达形式,SWRL模式以head表示推理结果,body表示推理前提,head和body中的限制通过atom或variable元素定义。构建证据审查判断规则模型,就是根据模式层的证据本体定义,将用自然语言描述的真实性、合法性、关联性审查判断规则文本翻译为SWRL规则表达式的过程。
实例层知识图谱也称数据层知识图谱,在知识图谱的数据层,知识以实例或者事实的形式存储于图数据库。对于个案的证据审查判断过程而言,构建实例层的知识图谱,就是通过数据库的结构化信息提取以及文书、电子数据等非结构化数据的信息抽取与要素识别,将实例所体现的案件犯罪构成要件要素对概念层实体的实例进行属性值填充和关系构造,实现实例层知识图谱与证据概念本体的要素匹配,为审查判断规则的自动运行提供数据输入。
与模式层类似,我们形式化地将实例层知识图谱IKG定义为一个二元组IKG={N,E},其中:N为节点集,n是节点集中的一个节点,表示实例;E为边集,e是边集中的一条边,表示实例间的关系或属性。IKG中的每一对节点以及连接这两个节点的边都可以用〈实例—关系—实例〉或〈实例—属性—属性值〉三元组表示。根据知识图谱工程的方法,IKG构造的主要步骤包括实例抽取、关系构造和属性值填充等。
实例抽取:实例抽取是指从各种证据材料文本中识别出证据要素的过程,该操作在自动化运行时其准确度和精度高度依赖于OCR、自然语言处理(NLP)、机器学习、启发式算法等的技术水平,对于法律领域词汇的识别效率还取决于法律语料库中专业词汇和惯用句式的丰富程度。进行实例抽取的证据材料除了包括各类结构化和半结构化的电子数据,还包括各类文书。也就是说,实例既可能从单一的证据材料中抽取。
关系构造:实例与实例之间的关系构造,其目标是根据模式层的关系定义进行匹配,逐一建立边将节点两两连接,使得数据层知识图谱表达的语义能够接近文本所蕴含的一般关系和法律关系。通常从构造基本关系开始,如证据实例间的“EQU”关系、“SUB”关系、“PAR”关系等等;接下来构造特定法律关系,如鉴定人鉴定机构与鉴定对象之间的“鉴定与被鉴定”关系等;最后构造与证据“三性”要求有关的各种关系,如对于真实性和合法性,比较典型的可以用EQU、ALI等关系进行形式化表达;对于关联性,可以用DIS表示无关性,CAU表示因果关系、ORD表示时态逻辑、SKO表示特定的依赖关系,等等,即通过CAU、ORD、SKO等关系构建法律图谱形式的证据链。
属性值填充:在关系构造时如果确定了A与B之间具有“PAR”关系,则表明B是实例A的一种属性,在属性值填充这一步骤就需要对B的值进行确定。对于法律文书而言,由于属性的值存在于文本中,要让机器能够做出判定,必须事先预设规则,通过句式、正则表达式、线索词进行截取、甄别,如,我们可以设定:“在《电子数据司法鉴定意见书》中‘鉴定人(员)’:后面的内容为鉴定人”作为某一份电子数据的“鉴定人”这一属性的属性值,又如设定:“在《电子数据司法鉴定意见书》中‘MD5值’或‘SHA1值’或‘SHA256值’后面的内容为完整性校验值”作为某一份电子数据的“完整性校验值”这一属性的属性值,等等。而对于一份电子数据的结构化或半结构化文本,其抽取一般需要更为丰富的领域语料库作为支撑,为提高机器判定的准确率,需要依靠机器学习算法进行长期的语料训练,对规则进行修正和完善。
通过以上步骤构造完成的实例层知识图谱用OWL文本的形式描述。OWL模式除了可以描述概念本体,还可以通过定义元素描述实例、元素反映实例与模式层本体的“ISA”关系、为实例的属性赋值,标明证据实例与证据概念本体的自动匹配。在此基础上,系统即可按照SWRL文档设定的规则进行证据的审查判断。
法律语言属于“领域语言”的一种。从内涵上说,法律语料库是表述法律意义的语言材料的集合,而从外延上说,如果表达了法律上的约束力,该表述即可以属于法律语言。因此,语料库的取料范围可以包括各类法律法规、司法解释、国际条约以及司法文书、执法文件、生效合同以及产生过法律意义的各种笔录等。
法律语料库是系统动态维护的解析法律文本的知识结构,语料库的丰富程度直接决定了元素解析的准确程度。法律语料库构建的步骤一般是:按照法律系统的内部体系对所有语料进行编排形成初步的生语料库,然后由系统进行自动分词和词性标注、词频统计,经过人工校对后生成法律词表,提取法律词汇,生成包含法律术语、法律基本用语和法律语境常用词汇在内的法律基本词汇表,最后分析总结法律领域的惯用表达句式。众所周知,自然语言表达具有句式的多样性和语义的复杂性等特点,因此,采用合适的机器学习方法以及人工专家标注是语料库构建过程中的必要手段。在系统使用过程中,系统分析的案例将作为机器学习训练的语料,得到新的词汇或者句式自动添加进语料库。
语料库一般以XML格式的文件存储。在本文的方法中,计算机使用法律语料库作为语词和句式的比对的辅助工具,可以更加精准地对具体的案例文本进行法律语词的识别提取,实现文本自动分类。系统通过使用自然语言处理(NLP)技术解析句式结构、匹配法律语料库中的语词,根据本体间的关联关系将法律文本映射为包含语义信息的实例,形成实例层知识图谱。
结论
赵国庆|论NFT数字作品侵权中停止侵害责任的适用
蔡一博潘裕|个人信息侵权损害赔偿范围的认定
雷鼎骆东平|数字民事纠纷中的“信息请求权”研究
王淑媛|智慧法院背景下审判辅助资源集约化管理的改善路径研究