LEVEN:一个大规模的中国法律事件检测数据集

识别事实是做出判断的最基本步骤,因此检测法律文件中的事件对法律案件分析任务非常重要。然而,现有的法律事件检测(LED)数据集只涉及不全面的事件类型,而且注释的数据有限,这限制了LED方法的发展及其下游应用。为了缓解这些问题,我们提出了LEVEN,一个大规模的中国法律事件检测数据集,包括8116份法律文件和108个事件类型中的150977个人类注释的事件提及。不仅是与指控有关的事件,LEVEN还涵盖了一般事件,这些事件对法律案件的理解至关重要,但在现有的LED数据集中却被忽略了。据我们所知,LEVEN是最大的LED数据集,其数据规模是其他数据集的几十倍,这将大大促进LED方法的训练和评估。广泛的实验结果表明,LED具有挑战性,需要进一步努力。此外,我们只是利用法律事件作为侧面信息来促进下游的应用。该方法在低资源判决预测中实现了平均2.2分的精度改进,在无监督案件检索中实现了平均1.5分的精度改进,这表明LED的基础性。

法律事件检测找出发生的事件及其之间的因果关系,是分析法律案件和作出判断的基础。法律事件检测(LED)旨在从法律案件中自动提取事件触发词,然后对其对应的事件类型进行分类,这个任务有利于许多下游法律人工智能应用,例如法律判决预测(LJP)和类似案件检索(SCR)。

现有LED数据集的不足:(1)数据有限:现有的LED数据集仅包含数千个事件提及注释,无法提供足够的训练数据和可靠的评估结果。(2)不全面的事件模式:现有的LED数据集仅涉及十几种罪名事件类型,只覆盖了很小的范围。

LEVEN的优点:(1)规模大:包含8116份法律文件,涵盖118项刑事指控,并有150977次人工注释事件提及;(2)高覆盖率:包含108种事件类型,指控类事件64种,一般类事件44种

第二阶段:为每项刑事指控抽出20份案件文件,邀请一位法律专家对抽样案件中出现的事件进行人工提取和总结。根据提取的事件,进一步过滤掉抽象的事件类型,最终得到了108个事件类型的注释,其中包括面向指控的事件和一般事件。

根据犯罪理论,犯罪的关键因素包括行为、危害结果和它们之间的因果关系。因此,本数据集将事件类型组织成一个分层结构,有三个类别代表行为,一个类别代表结果。

采用启发式方法自动选择候选触发词,并且缩小每个触发词候选项的事件类型选项。

根据注释指南,邀请多名注释者进行多阶段的注释,得到高质量的标注结果。

事件模式包含三个代表行为的事件类别,两个代表结果的事件类别,以及一个代表不可抗力的事件类别。

89.6%的事件类型包含100个以上的事件提及,43.4%的事件类型包含1000个以上的事件提及。

按照0.65:0.15:0.2的比例,将数据集随机分成训练集、验证集和测试集,采用微平均和宏平均的精度、召回率和F1得分作为实验的评价指标。

分类:用BiLSTM和BERT对给定的句子进行编码,用候选触发器的隐藏表示对其相应的事件类型进行分类。

动态池化:采用卷积神经网络(DMCNN)或者BERT来提取序列特征,并采用动态池化层来获得每个候选者的特定触发词表示。

长尾问题:虽然LEVEN包含数十万个事件提及,但有一些事件类型的实例不可避免地有限。少于50个实例的事件类型的micro-F1得分是65.97%,少于100个实例的事件类型是72.24%,低频类型的性能与总体平均性能之间仍有很大差距。

选用BERT作为基本结构,对词嵌入做出微小的改动,以整合事件信息。

采用BERT+CRF模型来检测案例文档中的触发词及其事件类型。通过在输入嵌入层中添加事件类型嵌入来利用BERT模型中的事件信息。事件类型嵌入在训练过程中被随机初始化和更新。

LED可以促进LJP的性能,尤其是在低资源环境下,这证明了LED的有效性。在完整的训练数据集下,LED只能在指控预测和法律条文预测上取得微弱提高,而在期限预测上取得显著提高。

事件信息有助于提高BERT模型的性能,进一步证明了事件信息对案例检索的重要性。

[1]CollinF.Baker,CharlesJ.Fillmore,andJohnB.Lowe.1998.TheBerkeleyFrameNetproject.InCOLING1998Volume1:The17thInternationalConferenceonComputationalLinguistics.

[2]AndersonBertoldi,RoveChishman,SandroJoséRigo,andThaísDomênicaMinghelli.2014.Cognitivelinguisticrepresentationoflegalevents.ProceedingsofCOGNITIVE.

THE END
1.中国特色社会主义法律体系【字体:大 中 小】 新华社北京10月27日电 国务院新闻办公室27日发表《中国特色社会主义法律体系》白皮书。全文如下: 中国特色社会主义法律体系 (2011年10月) 中华人民共和国 国务院新闻办公室 目录 前言 一、中国特色社会主义法律体系的形成 二、中国特色社会主义法律体系的构成 三、中国特色社会主义法律体系的特征 四https://www.gov.cn/zwgk/2011-10/27/content_1979526.htm
2.中国法律分为几大类法律分析:我国社会主义法律体系的基本框架 主要分为十部分,分别是:(一)宪法(二)行政法(三)民法(四)商法(五)经济法(六)劳动法和社会保障法(七)军事法(八)环境法 (九)刑法(十)诉讼程序法 法律依据:《中华人民共和国宪法》 第五条 中华人民共和国实行依法治国,建设社会主义法治https://zhidao.baidu.com/question/2019555830053428828.html
3.百利电气(600468)上市公司新浪财经在取得中国证券监督管理委员会和国家相关部门批准后,向机电 控股和泰康实业特定对象非公开发行A股股票。 6、关联董事回避表决,以四票赞成、○票反对、○票弃权,审议 2 通过了发行数量的议案; 本次拟购买资产的资产评估价值为人民币36,875.37万元,按以 http://finance.sina.com.cn/stock/s/20071216/22191863757.shtml
4.法学法学(law science),是关于法律的科学。是以法律、法律现象以及其规律性为研究内容的科学。法律作为社会的强制性规范,其直接目的在于维持社会秩序,并通过秩序的构建与维护,实现社会公正。作为以法律为研究对象的法学,其核心就在对于秩序与公正的研究,是秩序与公正之学[1]。 在中国,法学思想最早源于春秋战国时期的法家https://baike.sogou.com/v82123233.htm
5.2021年浙江公务员考试行测试题(C卷)21.民法典是新中国成立以来第一部以法典命名的法律。从胎儿到坟墓,民保护中国人生老病死的各个阶段,___社会生活中的各个方面,保护的范围相较于之前的单行法也更加___。依次填入画横线部分最恰当的一项是:A.涵盖 广泛B.覆盖 普遍C.包括 宽泛D.囊括 全面22.http://www.zjgwy.org/html/stzx/xc/202101/14_60340.html
6.金融法律专业委员会(2022年2月)银保监会于2021年4月20日印发《中国银保监会办公厅关于排查经营用途贷违规流入房地产领域的工作方案》(银保监办便函〔2021〕537号),披露了经营用途贷款违规流入房地产领域的两大类七种典型模式,分别为: 第一类:借款人将经营用途贷款违规用于购房 1.借款人从银行获得经营用途贷款,违规将其用于支付购房首付款,再从银https://www.gzlawyer.org/info/c341b6bec9ef4987ab7e2090efe739f6
7.祥和实业:首次公开发行股票招股说明书股票频道的规定,中国铁路总公司对铁路专用产品实行采信认证管理,相关认证工作由中 铁检验认证中心(简称“CRCC”)组织进行,并负责对通过认证的企业颁发《铁 路产品认证证书》(即 CRCC 证书)。 截至本招股说明书签署日,公司已取得涵盖尼龙件、橡胶件、塑料件和 WJ8 铁垫板下弹性垫板等 4 大类轨道扣件非金属零部件的认证证书https://stock.stockstar.com/notice/JC2017082200000978_4.shtml