谁为AI中文语料建设破局？语料联盟与语料库扮演关键角色|中国语言资源保护工程采录展示平台_农资

阿里研究院发布的《大模型训练数据白皮书》显示，全球网站英文内容占比高达59.8%，中文仅占1.3%，互联网上中、英文语料占比存在显著差异。

在上海市人工智能社会治理协同创新中心、上海交通大学清源研究院研究员刘志毅看来，语料联盟代表数据协同共享实践创新。无论是欧美的商业联盟还是中国的混合所有制探索，都在尝试解决“数据孤岛”问题。语料联盟模式的核心在于通过制度设计平衡各方利益，实现数据有序流动。这些需要在技术层面建立统一的数据标准与质量规范，在治理层面设计合理的激励机制，特别是要解决数据产权确权、收益分配等关键问题，上海的探索为全球AI治理提供了有益参考。

构建语料库或平台打造语料枢纽

2024世界人工智能大会语料主题论坛发布的“语料运营平台1.0”，提出打造世界一流的语料枢纽，实现更高效率、更高质量的语料供给。更为重要的是，推出《语料库建设导则》，不仅代表行业对高标准语料库需求的积极响应，也标志着人工智能领域将迎来更高质量的数据支持、更广阔的发展前景，开启高质量语料数据的新纪元。据了解，语料运营平台实现面向语料数据“采、洗、标、测、用”五位一体的工具链能力。用户可以通过平台进行语料上传、存储、搜索以及共享，提高语料使用效率。

AI语料数据国际化标准化将成趋势

谈及国内AI语料发展趋势，深译信息科技（珠海）有限公司创始人林余楚告诉南都记者，人工智能普及和数据供应商快速发展，海量语料数据为AI语料库构建提供丰富资源。但包括数据的准确性、一致性、标注准确性等数据质量参差不齐，数据隐私、合规性问题突显，医疗、法律、小语种等专业领域高质量语料数据相对缺乏。随着AI技术发展，对高质量、高精度语料数据需求日益增加。数据标注和处理技术不断进步，自动化标注、半监督学习、数据生成等技术的发展将提高语料数据处理的效率和质量。随着隐私保护意识的增强，匿名化处理、差分隐私等技术将被更广泛地应用于语料数据的处理。全球化的发展，AI语料数据的国际化、标准化将成为趋势，AI语料会以行业大模型进行仿真、合成生产为主，专业人工为辅，为具身智能时代提供高价值的数据，因此有数据能力基础的AI企业在行业竞争中会更有优势,“我们就是要致力于做中国版ScaleAI”。

尽管语料库在AI发展中扮演重要角色，但存在诸多挑战与难题，比如数据隐私问题，语料库通常包含大量个人与社会信息，处理不当就会导致隐私泄露。语料的选择与处理还可能引入偏见，导致AI模型产生不公平或歧视性。构建与使用语料库时遵循严格伦理标准与法律规范事关重要。

对此，刘志毅告诉南都记者，目前全球主流大模型以英文语料为主，中文大模型在语言理解深度、知识广度等方面存在提升空间。如何构建具有中文特色的高质量训练数据体系？需要思考几个方面问题：首先是数据的多样性，中文语料不仅包括文本，还应涵盖多模态数据，特别是具有中华文化特色的知识图谱；其次是数据的时效性，需要确保语料持续更新，对提升模型对当代中文语境的理解至关重要；最后是数据质量的标准化，需要建立科学评估体系，为中文大模型打造更优质的“训练场”。数据基础设施的建设，对推动中文AI技术进步具有深远影响，期待各地探索创新机制切实提升中文语料供给质量，为AI技术的本土化发展提供有力支撑。

THE END

谁为AI中文语料建设破局？语料联盟与语料库扮演关键角色

国家语料库是重大文化资源

谁为AI中文语料建设破局？语料联盟与语料库扮演关键角色

数据多样，增中华知识图谱持续更新，让AI读懂当代语境语料库

中国语言资源保护工程采录展示平台

帮助中心

《关于实施中国民族民间文化保护工程的通知》

田野调查报告范文