中文任务基准测评,10大任务&9个模型一键运行、详细测评:
Trainingwith30G+RawChineseCorpus,xxlarge,smallversionandmore,TargettomatchStateoftheArtperformanceinChinesewith30%lessparameters,2019-Oct-7,DuringtheNationalDayofChina!
语料库将会不断扩充。。。
一期目标:10个百万级中文语料&3个千万级中文语料(2019年5月1号)
二期目标:30个百万级中文语料&10个千万级中文语料&1个亿级中文语料(2019年12月31日)
Update:增加高质量社区问答json版(webtext2019zh),可用于训练超大规模NLP模型;添加520万翻译语料(translation2019zh)。
普通的从业者、研究人员或学生,并没有一个比较好的渠道获得极大量的中文语料。笔者想要训练一个中文的词向量,
在百度和github上上搜索了好久,收获却很少:要么语料的量级太小,要么数据过于成旧,或需要的处理太复杂。
不知道你是否也遇到了这样的问题?
我们这个项目,就是为了解决这一问题贡献微薄之力。
数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万,不提供下载。
含有150万个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别,其中频率达到或超过10次的类别有434个。
数据集划分:数据去重并分成三个部分。训练集:142.5万;验证集:4.5万;测试集,数万,不提供下载。
欢迎报告模型在验证集上的准确率。任务1:类别预测。
报告包括:#1)验证集上准确率;#2)采用的模型、方法描述、运行方式,1页PDF;#3)可运行的源代码(可选)
基于#2和#3,我们会在测试集上做测试,并报告测试集上的准确率;只提供了#1和#2的队伍,验证集上的成绩依然可以被显示出来,但会被标记为未验证。
含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个【话题】,总共有2.8万个各式话题,话题包罗万象。
从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。
除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签。
数据集划分:数据去重并分成三个部分。训练集:412万;验证集:6.8万;测试集a:6.8万;测试集b,不提供下载。
任务1:话题预测。
任务2:训练社区问答(cQA)系统。
要求:评价指标采用MAP,构建一个适合排序问题的测试集,并报告在该测试集上的效果。
任务3:使用该数据集(webtext2019zh),参考OpenAI的GPT-2,训练中文的文本写作模型、测试在其他数据集上的zero-shot的效果,或测评语言模型的效果。
中英文平行语料520万对。每一个对,包含一个英文和对应的中文。中文或英文,多数情况是一句带标点符号的完整的话。
对于一个平行的中英文对,中文平均有36个字,英文平均有19个单词(单词如“she”)
数据集划分:数据去重并分成三个部分。训练集:516万;验证集:3.9万;测试集,数万,不提供下载。
为了共同建立一个大规模开放共享的中文语料库,以促进中文自然语言处理领域的发展,凡提供语料并被采纳到该项目中,
除了会列出贡献者名单(可选)外,我们会根据语料的质量和量级,选出前20个同学,结合您的意愿,寄出键盘、鼠标、
显示屏、无线耳机、智能音箱或其他等值的物品,以表示对贡献者的感谢。
addyourchinesecorpusherebysendingusanemail
ifthereisanyissueregardingthedata,youcanalsocontactwithus,wewillprocessitwithinoneweek.
thankyouforyourunderstanding.
也请发邮件告知我们您的论文名称或在这个项目的数据集上的工作