阿里研究院发布的《大模型训练数据白皮书》显示,全球网站英文内容占比高达59.8%,中文仅占1.3%,互联网上中、英文语料占比存在显著差异。
在上海市人工智能社会治理协同创新中心、上海交通大学清源研究院研究员刘志毅看来,语料联盟代表数据协同共享实践创新。无论是欧美的商业联盟还是中国的混合所有制探索,都在尝试解决“数据孤岛”问题。语料联盟模式的核心在于通过制度设计平衡各方利益,实现数据有序流动。这些需要在技术层面建立统一的数据标准与质量规范,在治理层面设计合理的激励机制,特别是要解决数据产权确权、收益分配等关键问题,上海的探索为全球AI治理提供了有益参考。
构建语料库或平台打造语料枢纽
2024世界人工智能大会语料主题论坛发布的“语料运营平台1.0”,提出打造世界一流的语料枢纽,实现更高效率、更高质量的语料供给。更为重要的是,推出《语料库建设导则》,不仅代表行业对高标准语料库需求的积极响应,也标志着人工智能领域将迎来更高质量的数据支持、更广阔的发展前景,开启高质量语料数据的新纪元。据了解,语料运营平台实现面向语料数据“采、洗、标、测、用”五位一体的工具链能力。用户可以通过平台进行语料上传、存储、搜索以及共享,提高语料使用效率。
AI语料数据国际化标准化将成趋势
谈及国内AI语料发展趋势,深译信息科技(珠海)有限公司创始人林余楚告诉南都记者,人工智能普及和数据供应商快速发展,海量语料数据为AI语料库构建提供丰富资源。但包括数据的准确性、一致性、标注准确性等数据质量参差不齐,数据隐私、合规性问题突显,医疗、法律、小语种等专业领域高质量语料数据相对缺乏。随着AI技术发展,对高质量、高精度语料数据需求日益增加。数据标注和处理技术不断进步,自动化标注、半监督学习、数据生成等技术的发展将提高语料数据处理的效率和质量。随着隐私保护意识的增强,匿名化处理、差分隐私等技术将被更广泛地应用于语料数据的处理。全球化的发展,AI语料数据的国际化、标准化将成为趋势,AI语料会以行业大模型进行仿真、合成生产为主,专业人工为辅,为具身智能时代提供高价值的数据,因此有数据能力基础的AI企业在行业竞争中会更有优势,“我们就是要致力于做中国版ScaleAI”。
尽管语料库在AI发展中扮演重要角色,但存在诸多挑战与难题,比如数据隐私问题,语料库通常包含大量个人与社会信息,处理不当就会导致隐私泄露。语料的选择与处理还可能引入偏见,导致AI模型产生不公平或歧视性。构建与使用语料库时遵循严格伦理标准与法律规范事关重要。
对此,刘志毅告诉南都记者,目前全球主流大模型以英文语料为主,中文大模型在语言理解深度、知识广度等方面存在提升空间。如何构建具有中文特色的高质量训练数据体系?需要思考几个方面问题:首先是数据的多样性,中文语料不仅包括文本,还应涵盖多模态数据,特别是具有中华文化特色的知识图谱;其次是数据的时效性,需要确保语料持续更新,对提升模型对当代中文语境的理解至关重要;最后是数据质量的标准化,需要建立科学评估体系,为中文大模型打造更优质的“训练场”。数据基础设施的建设,对推动中文AI技术进步具有深远影响,期待各地探索创新机制切实提升中文语料供给质量,为AI技术的本土化发展提供有力支撑。