LEVEN:一个大规模的中国法律事件检测数据集

识别事实是做出判断的最基本步骤,因此检测法律文件中的事件对法律案件分析任务非常重要。然而,现有的法律事件检测(LED)数据集只涉及不全面的事件类型,而且注释的数据有限,这限制了LED方法的发展及其下游应用。为了缓解这些问题,我们提出了LEVEN,一个大规模的中国法律事件检测数据集,包括8116份法律文件和108个事件类型中的150977个人类注释的事件提及。不仅是与指控有关的事件,LEVEN还涵盖了一般事件,这些事件对法律案件的理解至关重要,但在现有的LED数据集中却被忽略了。据我们所知,LEVEN是最大的LED数据集,其数据规模是其他数据集的几十倍,这将大大促进LED方法的训练和评估。广泛的实验结果表明,LED具有挑战性,需要进一步努力。此外,我们只是利用法律事件作为侧面信息来促进下游的应用。该方法在低资源判决预测中实现了平均2.2分的精度改进,在无监督案件检索中实现了平均1.5分的精度改进,这表明LED的基础性。

法律事件检测找出发生的事件及其之间的因果关系,是分析法律案件和作出判断的基础。法律事件检测(LED)旨在从法律案件中自动提取事件触发词,然后对其对应的事件类型进行分类,这个任务有利于许多下游法律人工智能应用,例如法律判决预测(LJP)和类似案件检索(SCR)。

现有LED数据集的不足:(1)数据有限:现有的LED数据集仅包含数千个事件提及注释,无法提供足够的训练数据和可靠的评估结果。(2)不全面的事件模式:现有的LED数据集仅涉及十几种罪名事件类型,只覆盖了很小的范围。

LEVEN的优点:(1)规模大:包含8116份法律文件,涵盖118项刑事指控,并有150977次人工注释事件提及;(2)高覆盖率:包含108种事件类型,指控类事件64种,一般类事件44种

第二阶段:为每项刑事指控抽出20份案件文件,邀请一位法律专家对抽样案件中出现的事件进行人工提取和总结。根据提取的事件,进一步过滤掉抽象的事件类型,最终得到了108个事件类型的注释,其中包括面向指控的事件和一般事件。

根据犯罪理论,犯罪的关键因素包括行为、危害结果和它们之间的因果关系。因此,本数据集将事件类型组织成一个分层结构,有三个类别代表行为,一个类别代表结果。

采用启发式方法自动选择候选触发词,并且缩小每个触发词候选项的事件类型选项。

根据注释指南,邀请多名注释者进行多阶段的注释,得到高质量的标注结果。

事件模式包含三个代表行为的事件类别,两个代表结果的事件类别,以及一个代表不可抗力的事件类别。

89.6%的事件类型包含100个以上的事件提及,43.4%的事件类型包含1000个以上的事件提及。

按照0.65:0.15:0.2的比例,将数据集随机分成训练集、验证集和测试集,采用微平均和宏平均的精度、召回率和F1得分作为实验的评价指标。

分类:用BiLSTM和BERT对给定的句子进行编码,用候选触发器的隐藏表示对其相应的事件类型进行分类。

动态池化:采用卷积神经网络(DMCNN)或者BERT来提取序列特征,并采用动态池化层来获得每个候选者的特定触发词表示。

长尾问题:虽然LEVEN包含数十万个事件提及,但有一些事件类型的实例不可避免地有限。少于50个实例的事件类型的micro-F1得分是65.97%,少于100个实例的事件类型是72.24%,低频类型的性能与总体平均性能之间仍有很大差距。

选用BERT作为基本结构,对词嵌入做出微小的改动,以整合事件信息。

采用BERT+CRF模型来检测案例文档中的触发词及其事件类型。通过在输入嵌入层中添加事件类型嵌入来利用BERT模型中的事件信息。事件类型嵌入在训练过程中被随机初始化和更新。

LED可以促进LJP的性能,尤其是在低资源环境下,这证明了LED的有效性。在完整的训练数据集下,LED只能在指控预测和法律条文预测上取得微弱提高,而在期限预测上取得显著提高。

事件信息有助于提高BERT模型的性能,进一步证明了事件信息对案例检索的重要性。

[1]CollinF.Baker,CharlesJ.Fillmore,andJohnB.Lowe.1998.TheBerkeleyFrameNetproject.InCOLING1998Volume1:The17thInternationalConferenceonComputationalLinguistics.

[2]AndersonBertoldi,RoveChishman,SandroJoséRigo,andThaísDomênicaMinghelli.2014.Cognitivelinguisticrepresentationoflegalevents.ProceedingsofCOGNITIVE.

THE END
1.我国的犯罪类型分为几类【我国的犯罪类型分为几类相关法律知识科普】如今在国家的严厉打击下,违法犯罪的事件比以前少了很多,但是违法犯罪仍然存在。我国为了完善相关的法律规律,不断的在对新刑法进行修改。那么新刑法实施前的犯罪在新刑法实施后有哪些影响,新刑法规定的犯罪类型又有哪些呢?华律网小编将在下文中为您详细介绍,欢迎阅读了解。https://www.66law.cn/laws/1077383.aspx
2.优化营商环境政策宣传解读月知识产权基本常识与综合服务篇除此之外,行政保护与司法保护的保护措施力度、法律依据等方面也有所区别。 7、我国保护知识产权的行政机关有哪些? 我国针对不同的知识产权类型及其保护要求,从国家到地方,均设置了相应的履行知识产权保护职责的行政管理部门。从国家层面来看,行政管理部门主要包括国家知识产权局、国家工商行政管理总局、国家版权局、商务https://amr.tongliao.gov.cn/syjj/yhyshj/2022-09/15/content_ac531d0d16b34182b122cec02e6092cb.shtml
3.煤矿安全生产基本常识100题煤矿安全知识63、煤层顶板可分为哪几种 类型?在采煤过程中,哪类顶板是顶板管理的重要部位? 答:煤层顶板可分伪顶、直接顶和老顶三种类型。直接顶是顶板管理的重要部位。 64、严格执行敲帮问顶制度,开工前谁必须对工作面安全情况进行全面检查,确认无危险后,方准人员进入工作面? http://www.ccoalnews.com/special/201706/02/c14780.html
4.理工光科:首次公开发行股票并在创业板上市招股说明书本所为发行人本次发行上市制作、出具的上述法律文件不存在虚假记载、 误导性陈述或者重大遗漏。如因本所过错致使上述法律文件存在虚假记载、误 导性陈述或者重大遗漏,并因此给投资者造成直接损失的,本所将依法与发行 人承担连带赔偿责任。 作为中国境内专业法律服务机构及执业律师,本所及本所律师与发行人的 关系受《https://stock.stockstar.com/notice/JC2016101900000004_53.shtml
5.商法一般条款的类型化适用作为法学方法论的类型化,是指应用“类型”来掌握或解释法律现象的一种方法。类型一词源自希腊语,后至19世纪后半叶,类型一词主要使用在自然科学领域。在社会科学研究领域,马克斯·韦伯首次将类型概念引入社会学,创立了理想类型理论。后经亚图·考夫曼和卡尔·拉伦茨等法学家的系统研究,类型化的理论形成了较为严密的体系https://cssn.cn/dkzgxp/zgxp_zgshkx/2022nd2q/202208/t20220822_5474674.shtml
6.中国法院网该情况反映了借名买房纠纷发生的背景十分复杂,而不同房屋类型对于借名买房的效力认定及司法裁判也存在重要影响。 (四)起因不同、类型各异,法律效力不尽相同 根据起因不同,借名买房引发的民事纠纷案件可以分为四种类型:一是为规避限购、信贷等房地产调控政策,不具有购房或贷款资格的人借用有资格的人名义购房;二是借https://www.chinacourt.org/chat/chat/2020/09/id/52592.shtml
7.在我国土地使用权分哪几种导读:在我国土地使用权分为划拨土地使用权和出让土地使用权。在中国土地所有权是归集体和国家所有的,任何自然人和组织都只有土地的使用权。并且使用任何的土地,都是要根据土地的面积以及类型缴纳土地使用税。 在我国土地使用权分哪几种 一、在我国土地使用权分哪几种 https://www.64365.com/zs/1489353.aspx