谁为AI中文语料建设破局?语料联盟与语料库扮演关键角色

阿里研究院发布的《大模型训练数据白皮书》显示,全球网站英文内容占比高达59.8%,中文仅占1.3%,互联网上中、英文语料占比存在显著差异。

在上海市人工智能社会治理协同创新中心、上海交通大学清源研究院研究员刘志毅看来,语料联盟代表数据协同共享实践创新。无论是欧美的商业联盟还是中国的混合所有制探索,都在尝试解决“数据孤岛”问题。语料联盟模式的核心在于通过制度设计平衡各方利益,实现数据有序流动。这些需要在技术层面建立统一的数据标准与质量规范,在治理层面设计合理的激励机制,特别是要解决数据产权确权、收益分配等关键问题,上海的探索为全球AI治理提供了有益参考。

构建语料库或平台打造语料枢纽

2024世界人工智能大会语料主题论坛发布的“语料运营平台1.0”,提出打造世界一流的语料枢纽,实现更高效率、更高质量的语料供给。更为重要的是,推出《语料库建设导则》,不仅代表行业对高标准语料库需求的积极响应,也标志着人工智能领域将迎来更高质量的数据支持、更广阔的发展前景,开启高质量语料数据的新纪元。据了解,语料运营平台实现面向语料数据“采、洗、标、测、用”五位一体的工具链能力。用户可以通过平台进行语料上传、存储、搜索以及共享,提高语料使用效率。

AI语料数据国际化标准化将成趋势

谈及国内AI语料发展趋势,深译信息科技(珠海)有限公司创始人林余楚告诉南都记者,人工智能普及和数据供应商快速发展,海量语料数据为AI语料库构建提供丰富资源。但包括数据的准确性、一致性、标注准确性等数据质量参差不齐,数据隐私、合规性问题突显,医疗、法律、小语种等专业领域高质量语料数据相对缺乏。随着AI技术发展,对高质量、高精度语料数据需求日益增加。数据标注和处理技术不断进步,自动化标注、半监督学习、数据生成等技术的发展将提高语料数据处理的效率和质量。随着隐私保护意识的增强,匿名化处理、差分隐私等技术将被更广泛地应用于语料数据的处理。全球化的发展,AI语料数据的国际化、标准化将成为趋势,AI语料会以行业大模型进行仿真、合成生产为主,专业人工为辅,为具身智能时代提供高价值的数据,因此有数据能力基础的AI企业在行业竞争中会更有优势,“我们就是要致力于做中国版ScaleAI”。

尽管语料库在AI发展中扮演重要角色,但存在诸多挑战与难题,比如数据隐私问题,语料库通常包含大量个人与社会信息,处理不当就会导致隐私泄露。语料的选择与处理还可能引入偏见,导致AI模型产生不公平或歧视性。构建与使用语料库时遵循严格伦理标准与法律规范事关重要。

对此,刘志毅告诉南都记者,目前全球主流大模型以英文语料为主,中文大模型在语言理解深度、知识广度等方面存在提升空间。如何构建具有中文特色的高质量训练数据体系?需要思考几个方面问题:首先是数据的多样性,中文语料不仅包括文本,还应涵盖多模态数据,特别是具有中华文化特色的知识图谱;其次是数据的时效性,需要确保语料持续更新,对提升模型对当代中文语境的理解至关重要;最后是数据质量的标准化,需要建立科学评估体系,为中文大模型打造更优质的“训练场”。数据基础设施的建设,对推动中文AI技术进步具有深远影响,期待各地探索创新机制切实提升中文语料供给质量,为AI技术的本土化发展提供有力支撑。

THE END
1.国家语言资源监测与研究民族语言中心举办“国家语言文字研究基地20年”活中央民族大学国家语言资源监测与研究民族语言中心组织承办了“大模型时代多语种语言资源建设与测评分论坛CMLME2024”,中心主任赵小兵教授担任论坛主席并主持了论坛议程,论坛旨在推动人工智能多语种优质数据资源的持续汇聚、传播共享、评测服务、技术交流、国际合作及国家语言文字事业的高质量发展。https://www.muc.edu.cn/info/1052/34118.htm
2.天津外国语大学人工智能翻译实验室AI多功能语料库检索平台项目二、项目名称:天津外国语大学人工智能翻译实验室AI多功能语料库检索平台项目 三、中标信息 第1包 : 通过资格审查和符合性审查的供应商评审报价: 第1包 : 四、主要标的信息 第1包 : 五、评审专家名单: 评审专家:黄玉冬,杨帆,王长生,马文建 采购人代表:华云鹏 http://www.ccgp.gov.cn/cggg/dfgg/zbgg/202411/t20241127_23723407.htm
3.大学天津外国语大学人工智能翻译实验室AI多功能语料库检索平台| 天津外国语大学天津外国语大学人工智能翻译实验室AI多功能语料库检索平台项目(项目编号:GY-2024-274)中标公告招标详情 公告概要: 公告信息: 采购项目名称 ***人工智能翻译实验室**多功能语料库检索平台项目 品目 采购单位 *** 行政区域 市辖区 公告时间 ***年**月**日 **:** 评审专家名单 评审专家:黄玉https://zj.17biao.com/detail/6746b439044491747f83c8fa.html
4.公共文化服务平台14个 语言文字 12个 文化科学 6个 文学 5个 经济管理 2个 自动化与计算 2个 艺术 1个 化学工程 1个 机械工程 1个 轻工技术与工 1个 农业科学 1个 一般工业技术 1个 政治法律 1个 历史地理 1个 自然科学总论 主题 12个 英语 10个 教学 9个 语言 9个 翻译 7个 大学英语 7个 学法 7个http://gt.cqvip.com/cqtsg/writer/writer.aspx?id=100000009897682
5.中国语言资源保护工程采录展示平台中国语言资源保护工程采录展示平台是专门用于保存、管理和分析方言和少数民族语言资源调查官方数据的学术型数据平台,其主要任务是在汉语方言资源调查保存和少数民族语言资源调查保存两个项目的基础上完成所有语言资源的数字化,存储管理,整理分析和应用展示等方面的工作,https://zhongguoyuyan.cn/standard/
6.中国语言资源采录展示平台的关键技术及其应用期刊摘要:中国语言资源保护工程自2015年启动以来,受到国际社会的高度关注,得到社会各界的热烈响应.中国语言资源保护工程采录展示平台作为中国语言资源保护工程的重要组成部分,担任工程成果展示的重大使命.平台建设涉及数据容量大,技术要求高,在创新应用的同时对安全性要求严苛,此外还具有相当的前瞻性和科学性.本文介绍了平台建设https://d.wanfangdata.com.cn/periodical/yywzyy201904005
7.上海大学2017年学术型硕士研究生招生目录人口、资源与环境经济学:环境经济学备注:本专业不招收同等学力考生。020101 政治经济学 本研究方向的特色:以马克思主义经济学的基本理论和分析方法为指导,通过对社会主义市场经济实践的研究,以及对新的历史条件下马克思主义经济学在理论上的发展和创新展开深入的研究,致力于构建中国社会主义市场经济的理论。并在理论研究的https://www.kaoyan.cn/news/65866
8.2019级空中乘务专业人才培养方案本方案以习近平新时代中国特色社主义思想为指导,深入贯彻党的十九大精 神,按照全国教育大会部署,落实立德树人根本任务,坚持面向市场、服务发展、 促进就业的办学方向,健全德技并修、工学结合育人机制,构建德智体美劳全面 发展的人才培养体系,突出职业教育的类型特点,深化产教融合、校企合作,推 进教师、教材、教法改革https://www.hnwmxy.com/jiaoxuekeyan/jiaoxuebiaozhunfabu/rencaipeiyangfangan/2019re/2019/1023/5252.html
9.固原市第四中学人人通空间1、推广“预习—检查—点拨—展示--反馈—检测”的高效课堂教学模式。 此高效课堂教学模式分为六个环节:“预习(课前)——检查(5分钟)——— 点拨(引导、讲解15分钟)---展示(15分钟)---反馈(总结5分钟)——检测(课后)”即“六步教学法”(2+4模式)。从师生角色的分工上看:教师用课堂前5分钟进行检查新知https://yun.nxeduyun.com/index.php?r=space/school/theme/content/view&id=685605
10.乡镇雪亮工程整体解决方案雪亮工程数据库结构xxx雪亮工程平台总体建设内容包括基础设施建设、业务应用体系建设和雪亮工程综合管理平台建设三个部分。 基础设施指的是“xxx雪亮工程平台”必须具备的基础设施,它包括网络传输、机房、服务器及存储、网络安全、基础软件、基础数据等平台设施。 业务应用体系包括生产运营、企业管理、营销决策、智能指挥、居民服务和生态保护等https://blog.csdn.net/2401_85071093/article/details/141724418
11.国外网络教学资源平台建立运行激励机制,使全校教师积极参与网络教学资源建设,发挥我校专业优势,打造我校特色教学资源,构建功能齐全,集教学资源的建设、管理、应用、展示和评价与一体的网络教学资源平台,实现国内高校和国际优质教育资源的整合,拓展教学时空,全面提高人才培养质量,提升学校核心竞争力。https://www.360wenmi.com/f/fileu328lh7p.html