综述:数据要素——基础逐步筑牢,产业变革在即
数据范畴:从政务数据到更广泛的公共数据,应用逐步丰富。数据类型可以划分为公共数据、商业数据、个人数据。《国务院关于积极推进“互联网+”行动的指导意见》中,在创新政府网络化管理和服务中提及推动公共数据资源开放。而近两年的数据条例则从主体、目的、行为角度对公共数据进行了界定。如《上海市数据条例》中将政务、公共事业等组织在履行公共管理和服务职责中产生的数据界定为公共数据;《重庆市数据条例》则将政务数据、公共服务数据纳入公共数据的范畴。从数据范畴看,数据资源的开发范畴正从政务数据的领域进一步拓展。如《上海市数据条例》中提出鼓励各类企业开展数据融合应用,加快生产制造、科技研发、金融服务、商贸流通、航运物流、农业等领域的数据赋能,推动产业互联网和消费互联网贯通发展。《重庆市数据条例》中提出鼓励自然人、法人和非法人组织将数据依法汇聚到公共数据资源体系。
法律法规逐步完善,护航数据要素市场发展
各重点应用行业在数据合规基础法律框架基础上,提出针对性规范及指导性文件。在工业领域,2020年3月,工业和信息化部印发《工业数据分类分级指南(试行)》,规定了工业企业对工业数据进行分类梳理和标识并形成企业工业数据分类清单的要求。在政务数据领域,2022年国务院办公厅发布《全国一体化政务大数据体系建设指南》,提出“2023年底前,全国一体化政务大数据体系初步形成,基本具备数据目录管理、数据归集、数据治理、大数据分析、安全防护等能力。”在金融领域,2017年7月9日,中国保监会《保险业务要素数据规范》,明确了保险业务数据要素流通的基本规范。2020年2月,中国人民银行发布《个人金融信息保护技术规范》,对个人金融信息保护提出了明确的需求。2021年,人民银行发布《金融业数据能力建设指引》,明确提出要提升金融机构数据安全能力建设。
标准持续丰富,涵盖流通、交易等多个环节
标准持续丰富,覆盖多个环节。从标准的丰富看,形成了覆盖多个环节的标准、规范。各地在制定各环节的数据要素标准之前一般会先制定标准体系框架,规定整个标准体系的总体结构与要求,以及基础、数据、技术方法、产品及服务、行业应用、管理、安全和质量与评价等标准分体系的构成与要求。
数据流通环节标准:国家标准侧重提升数据要素流通效率,覆盖多个细分环节。数据要素流通环节包括数据登记、数据定价、数据交易共享和数据服务运营等,建设涵盖各方面的数据要素流通标准可以加快数据要素流通,充分发挥数据要素价值。同时,各省市积极开展数据要素流通环节的标准研制工作,如2019年12月贵州省市场监管局发布《基于区块链的数据资产交易实施指南》,规定了基于区块链的数据资产交易规范,适用于对数据资产交易方记录,对数据资产交易流程记录,对数据资产交易溯源,构建区块链分布式、多方可信促进资产流通。安全标准较为丰富,涉及数据安全、技术安全、平台安全。除去以上针对细分环节的标准,还有涉及数据要素全生命周期的环节,如数据基础设施、数据安全、数据咨询服务和数据人才培训等,其中我国围绕数据安全、技术安全、平台安全等方面的标准规范较为丰富。
重点行业标准:政务标准较丰富,重点行业持续更新。数据行业应用标准从大数据为各行业能提供的服务出发,是各领域根据其特性研制的专用数据标准,包括政务、金融、工业等领域。政务行业标准较丰富,如2019年12月,山西省电子政务信息标准化技术委员针对政务信息资源数据共享交换平台发布了涉及总体框架、目录编制规范、部门接入规范、交换规范、资源中心设计规范、共享网站功能指南、安全技术规范的多个标准。2018年12月杭州市数据资源管理局发布《政务数据共享安全管理规范》,规定了政务数据共享的总则、基本要求、数据归集安全、数据传输安全、数据存储安全、数据处理安全、数据共享安全和数据销毁安全,适用于非涉密政务数据共享安全管理。
数据+流通+安全,全生命周期技术体系逐步形成
数据要素技术可按照作用分为4类,分别为维护数据安全、提升数据质量、加强数据标准化、提高交易效率。维护数据安全技术包括隐私计算、区块链、密码技术。
1)隐私计算:包含三大主流方向
2)区块链
区块链是一种分布式的数据结构,利用块链式数据结构验证与存储数据、同时使用分布式节点共识算法生成和更新数据,并且区块链技术具备了去中心化的特性,使得区块链技术不会被第三方中心所控制,不可篡改,保证区块链数据较强的公信力,满足数据流通过程中保证数据安全、增强透明度的需求。在数据确权方面,数据确权是数据交易的前提,可以使用区块链技术进行数据登记,实现数据资产的唯一性确权。2021年,北京国际大数据交易所上线了数据交易平台IDeX系统,该系统功能之一为使用区块链技术,对上架的数据产品进行登记。在数据交易溯源方面,数据资源在链上交易的完善信息记录实现了数据唯一化,以此为基础可以对数据进行跟踪。当用户对数据交易有疑问的时候,便可通过区块链方便的查询某个用户、某个数据或某个时刻的交易记录。在数据交易记录方面,区块链为去中心化的分布式数据库,可以利用区块链的不可篡改性改善交易过程的记录问题。由于区块链中每一个节点都有一份相同的副本,并且副本的任何改变都要通过所有节点的共识,修改区块链中记录的内容非常困难,因此区块链可以帮助记录数据交易过程中的关键性数据或者证据。
3)密码技术
采用密码技术对信息加密,是最常用和有效的安全保护手段。目前广泛应用的加密技术主要包括:对称算法加密和非对称算法加密。对称算法加密的主要特点是通过相同的密钥对信息进行加密和解密,最常用的是DES算法。非对称算法加密避免了对称加密的密钥配送问题,其通过公布出去的公钥加密,自己保有的私钥解密。最常用的是RSA系统。密码技术可用于数据脱敏,对敏感信息进行数据的变形,实现敏感隐私数据的可靠保护。数据脱敏规则包括使用随机值、数据替换、对称加密、平均值、偏移和取整等,常常多规则配合使用。
4)机器学习:提升数据质量
机器学习使用计算机模拟或实现人类学习活动,从数据中自动分析获得模型,并利用模型对未知数据进行预测。基于学习方式可以分为监督学习、无监督学习、强化学习等。在数据标注中,使用基于机器学习的半自动标注方法,主要用于提升训练精度、减少整体标注成本、加快模型开发效率。半自动标注方法包括预训练模型和主动学习等。预训练模型,先对小批量数据进行标注学习训练,得到一个预训练模型,然后以学习结果去标注剩下的数据集,往复循环,逐步提高精度。主动学习,即网络具有一定自主决策能力,可主动地提出一些标注请求,将经过筛选的数据提交给人类专家进行标注,节约标注成本,提升效率。
数据:覆盖多环节的产业链逐步清晰
涵盖供给、流通、应用的全方位的数据要素产业链逐步清晰
数据要素可分为供给、流通、应用环节。数据要素从产生到发挥价值,涉及众多细分环节,从《“十四五”数字经济发展规划》中提出“充分发挥数据要素作用”的具体要求看,包括强化高质量数据要素供给、加快数据要素市场化流通、创新数据要素开发利用机制。我们将数据要素的全价值链总体划分为供给、流通、应用三大环节。不同环节所涉及的具体能力要求有所不同,在《“十四五”数字经济发展规划》中,针对数据要素供给环节,提出数据质量提升工程,侧重从数据资源、主体、标准化三大维度切入提升数据质量;在数据要素流通环节,提出数据要素市场培育试点工程,聚焦于确权及定价、数据交易平台的试验与培育。
数据要素供给:形成数据资源,为数据从资源向资产转化打下基础。数据要素供给,包含采集、整理(数据标注、数据清洗、脱敏脱密、标准化)、聚合(数据传输、存储、集合汇聚等)、分析几大环节,从原始的数据为起点,以形成可流通、利用的数据资源为终点,为数据向资产转化打下重要的基础。在这一环节内,通过建设标准化体系、发展数据处理技术,加强数据分类分级管理有助于增强数据处理能力,提升数据质量,是数据全产业链的基础环节。我们认为,有效提升数据质量的厂商,有望在供给环节形成竞争优势。
涵盖供给、流通、应用的全方位的数据要素产业链逐步清晰。围绕提供高质量数据的主题,数据采集、整理(数据标注、数据清洗、脱敏脱密、标准化)、聚合(数据传输、存储、集合汇聚等)、分析等厂商构成了数据要素产业链中的供给环节;围绕提升数据要素交易效率的主题,确权登记、定价交易、交付清算及相应的服务厂商构成了数据要素产业链中的流通环节;围绕数据价值挖掘的主题,各个细分行业的数据应用逐步深入。我们认为当前涵盖供给、流通、应用的全方位的数据要素产业链逐步清晰。
参与主体:涉及供应商、监管方、需求方等多方
数据供给:数据产出行业集中度高,2021年五大行业占比65%左右。数据供给可拆分为采集、整理、聚合、分析四个环节,分别对应了数据产品供应商(负责提供原始数据)、数据加工处理服务商(负责数据预处理,将非结构化数据处理成结构化数据)、数据资源集成商(负责数据集合)和数据分析技术服务商(负责数据分析)四大参与主体。根据中国网络空间研究院发布的《国家数据资源调查报告(2021)》,2021年,我国数据产量高达6.6ZB,同比增长29.4%。在行业分布上,个人持有的各类设备共产生1.4ZB数据,全国各类行业机构共产生5.2ZB数据,其中,主要分布在政府、互联网、媒体、公众服务及专业服务、交通等行业,上述五大行业数据产量占全国行业机构数量总产量的65%左右。
数据流通:厂商集中在数据产品供应商,数据交易经纪服务商厂商较少。数据流通可以拆分为三阶段。第一阶段:需要完成数据登记确权,参与主体为数据质量评估商。第二阶段:包括数据产品、挂牌上市、撮合交易三阶段,涉及到数据产品供应商(提供数据产品)和数据交易经纪服务商(负责交易撮合、交易经纪,起到中介的作用)。第三阶段:包括合约交付和交易结算,参与主体仍为数据交易经纪服务商。其中从交易场所来看,数据交易可分为场外交易和场内交易,因此经纪服务商也可以分为场内经纪服务商和场外经纪服务商。由于场内交易体系建设较晚,因此目前仍以场外交易为主,场内交易在迅速发展。
市场规模:2021年达到数百亿元级别
数据供给:当前中国数商行业企业数量为192万家,数据产品和服务供给不足。从市场规模来看,2021年,数据供给环节(采集、存储、加工)的市场规模达到385亿元。根据国家工信安全发展研究中心,2021年中国数据要素市场规模约为815亿元(不含数据应用),其中,数据供给环节占比47.2%。从数商企业数量来看,存在明显的供需不匹配问题,缺少标准化和规划化产品。高质量数据产品的背后是高质量数商。根据上海数据交易所官网,截至2022年11月,上海数据交易所累计挂牌数商仅89个。根据《全国数商产业发展报告》,截至2022年11月,中国数商行业企业数量达到192万家。其中,中国数商产业主要集中在长三角、珠三角、京津翼、川渝地区,四大区域合计占比达到56.8%。
数据供给:以“数据资源化”构筑数据要素产业链起点
以“数据资源化”构筑数据要素产业链的起点。数据要素供给是整个数据产业链的基座和起点,即通过“数据资源化”使无序、混乱、海量的原始数据成为有序、有使用价值、标准化的数据资源,主要包括数据采集、数据整理、数据聚合、数据分析四大环节。
2)数据整理:是数据资源化的核心环节,包括数据标注、清洗、脱敏脱密、标准化治理等细分环节;数据整理环节的核心功能是实现数据资源的标准化,以提升数据资源的可用性,主要包括美林数据、神策数据等数据治理厂商以及百度众测、阿里众包等互联网公司;
3)数据聚合:是数据资源化的枢纽环节,包括数据存储、聚合等细分环节,是连通数据采集、整理与数据分析、应用的中枢;数据聚合环节的核心功能是实现数据资源的互联互通、开放共享,以增强数据资源的规模效应与产业价值,在实际应用中聚合对象既包含原始数据又包含标准化数据,产业链公司主要包括达梦数据、人大金仓、PingCAP等数据库厂商,阿里云、华为云等云厂商以及星环科技、思迈特、友盟等大数据平台厂商;
4)数据分析:是数据资源化的应用环节,旨在通过对数据资源的详细研究、概括总结实现数据功能的最大化开发,包括商业智能(BussinessIntelligence,BI)分析、知识图谱、边缘计算、智能决策等服务,产业链公司主要包括星环科技、帆软软件、第四范式、明略科技等企业。
我国数据要素供给环节发展较为成熟,数据要素产业基础已基本夯实。据国家工信部统计,2021年我国数据采集、整理、聚合、分析的产业规模分别为45、160、180、174亿元,2022年11月,我国数据采集、整理、聚合、分析四个环节的数商企业数量占比分别49.9%、7.5%、25.5%、17.1%,是数据要素市场中发展较为成熟的产业环节。
数据采集是数据要素供给的首要环节。数据采集是数据整理、数据聚合、数据分析的业务基础,决定了数据要素供给的范围和质量,一般可分为线下采集与线上采集两种方式。1)线下采集:多通过问卷调查、用户访谈、实地调研等方式进行人工数据采集;2)线上采集:多利用API接口、传感器、智能设备、爬虫技术等方式实现自动数据采集,包括数据库采集、系统日志采集、网络数据采集、感知设备数据采集四大类。伴随信息化程度不断深入与数据采集范畴的不断扩大,数据采集呈现自动化、智能化、网络化的三大发展趋势。
公共数据:逐步进入要素市场,逐步扩大开放范畴
企业数据:数据链反哺产业链,第三方采集商价值凸显
企业数据采集是数据要素市场的重点。企业数据采集主要包括内部数据采集、外部数据采集和定制化数据采集等三种类型:1)内部数据采集:主要通过数据采集系统、日志收集系统、基于数据库和表的采集技术等方式,实现企业内部业务数据的离线采集;2)外部数据采集:主要通过开放API接口、爬虫技术、传感器应用等方式,实现竞品数据、行业数据等外部数据的收集;3)定制化数据采集:主要通过专业的第三方数据采集厂商,针对企业的定制化需求提供数据采集服务,并形成高价值密度的数据集产品。作为数字经济主体,企业数据链有望反哺产业链加速发展,企业数据采集是数据要素市场的核心重点。
市场格局:数字化转型建设商与大数据基础服务商各具优势
数据整理:数据资源化核心环节,搭建数据要素标准体系
产业概览:以数据标准化为核心落脚点,强化数据要素资源管理
数据整理是实现数据到数据资源转变的核心环节。数据整理是指对采集、存储的数据进行筛选和处理,提升数据的可用性,为数据资源聚合、挖掘、分析奠定基础,主要包括数据清洗、标注、脱敏、标准化治理四大细分环节。数据整理作为数据资源化的核心环节,其根本目的在于提供高价值密度、高可用性的数据要素资源,以标准化治理为核心的数据要素标准体系构建有望成为该阶段的建设重点。
3)数据脱敏:是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护,是深化数据要素安全应用的重要前提;数据脱敏可分为静态数据脱敏和动态数据脱敏两大类,静态数据脱敏是指对完整数据集进行大批量、一次性的整体脱敏,多采用ETL技术进行脱敏处理;动态数据脱敏是指对外部申请访问的敏感数据进行实时脱敏处理,多采用中间件技术对外部的访问申请和返回结果进行即时变形转换处理。
4)数据标准化治理:是指在数据驱动的业务与生产环境中,围绕具备更高可用性的数据标准与数据模型构建的完整数据系统工程,是数据整理环节的最终落脚点;根据2018年发布的首个数据管理领域国家标准GB-36073,数据标准化治理已成为DCMM数据管理能力成熟度评估模型的重要组成部分;DCMM自低到高分为初始级、受管理级、稳健级、量化管理级、优先级五个层级,截至2022年6月,DCMM贯标已覆盖全国电力、通信、金融、政务、IT、工业制造等领域的252家企业,其中二级企业共124家(占比49%),三级企业共94家(占比38%),四级企业共28家(占比11%),五级企业共3家,数据标准化治理水平仍有较大的提升空间。
市场格局:数据加工服务商占主导,数据治理服务商有望加速成长
数据加工服务商占主导,数据治理服务商有望加速成长。1)数据加工服务商:专注于数据的清洗、标注、脱敏等加工服务,为数据分析应用提供高质量数据基础;2)数据治理服务商:主要从数据全生命周期的视角,为企业提供数据的标准化治理服务,提升企业自身的数据管理能力。根据上海数据交易所发布的《2022全国数商产业发展报告》,截至2022年10月国内数据加工服务商数量(121,598家)远超数据治理服务商(13家),我们认为,随着数据要素在经济活动中逐渐发挥重要作用,企业对数据管理能力的要求将进一步提升,数据治理服务商有望加速成长。从具体细分环节来看,参与厂商构成具有一定差异:
)数据标注:主要参与厂商包括Testin云测、倍赛、京东众智、百度众测、阿里众包等企业,其中Testin云测、倍赛采用自建模式,通过自建工厂或基地提供数据标注服务;蚂蚁众包、阿里众包采用众包模式,通过搭建众包平台汇聚标注兼职人员力量;京东众智、百度众测、龙猫数据、数据堂则采用自建+众包的组合模式,比如百度在山西建立了人工智能基础数据产业基地,同时拥有数据标注开放平台,兼具两类业务模式优势。
数据聚合:数据资源化枢纽环节,强调数据要素互通共享
数据聚合是数据要素互通共享的枢纽环节。根据聚合范畴的不同,数据聚合可分为数据库、数据湖、数据仓库、数据平台等多种业务形态:1)数据库:按照数据结构不同可分为关系型数据库、NoSQL数据库、NewSQL数据库;2)数据仓库:是指用于存储、分析、报告的数据系统,与数据库相比数据仓库中的数据按照一定主题域进行组织;3)数据湖:是指集中式数据存储库,允许以任意规模存储所有结构化和非结构化数据,解决了数据分散、存储散乱、数据孤岛众多等问题;4)数据平台:是指通过内容共享、资源共用、渠道共建、数据共通等形式来进行服务的网络平台。我们认为,数据要素互通共享将成为数据分析利用的重要支撑,云数据库、湖仓一体平台、大数据平台等产业形态有望加速发展。
数据库:数据上云成为重要趋势,非关系型数据库快速发展
数据库上云成为重要趋势,非关系型数据库加速发展。数据要素化持续带动数据规模高速增长与数据类型不断丰富,同时数据计算也将朝高并发、低时延的趋势深度发展。综合考量数据要素化带来的数据与计算变化,我们认为,面向数据要素的数据库存储将呈现显著的云化趋势,云数据库能够按需分配计算、存储和带宽等资源,具有按需付费、按需扩展、高可用性、存储整合等灵活性优势;同时大量图像、视频、社交信息等非结构化数据高速增长,带动非关系型数据库占比快速提升。据沙利文预测,2025年我国数据库产业规模将达到682.3亿元,2021-2025年复合增长率约为21.1%,云数据库将成为重要增量。
湖仓一体:数据湖、数据仓库呈现湖仓一体发展趋势
湖仓一体成为数据湖、数据仓库的重要发展趋势。普通的数据湖(DataLakes)在数据质量、一致性/隔离性、混合处理追加读取等方面不如数据仓库,普通的数据仓库(DataWarehouses)在多源、异构数据融合方面劣势较为明显。湖仓一体(Lakehouse)兼容了数据仓库和数据湖的优势,在数据湖的低成本存储上实现数据仓库的数据结构和管理功能,包括事务支持、模式执行和治理、商务智能BI(BusinessIntelligence)支持、存储与计算分离、多种数据类型支持、各种工作负载支持等。
国内湖仓一体厂商主要包括云厂商和大数据厂商两大类。1)云厂商:以华为云、阿里云、金山云、腾讯云、移动云、百度智能云为代表的云厂商,凭借基础资源优势打造云原生的湖仓一体平台,兼具云数据库与湖仓一体平台的产品优势;2)大数据厂商:以火山引擎、星环科技、偶数科技、滴普科技、亿信华辰为代表的大数据厂商,也基于自身在大数据聚合、分析方面的业务理解,推出湖仓一体产品,为下游用户提供高效的数据聚合方案。
数据平台:一体化平台或将加速数据要素市场化进展
大数据平台打通各数据环节,推动多源异构数据互联共通。大数据平台采用流、批、湖、仓一体化方案,实现多源异构数据的大规模聚合。以星环科技的TDH大数据平台为例,TDH平台内置8款独立的存储引擎,实时流处理采用实时流计算引擎Slipstream,结构化数据的批处理、数据湖、数据仓库采用关系型分析引擎Inceptor,宽表存储、文本存储、对象存储等非结构化数据采用宽表数据库引擎Hyperbase。我们认为,一体化大数据平台在多源异构数据聚合方面具有突出的技术优势,或将成为多类型数据要素聚合的重要载体。国内大数据平台厂商包括:思迈特、星环科技、友盟、网易猛犸、神策数据等多家企业。
数据分析:数据资源化应用环节,实现数据价值深度挖掘
2025年数据分析市场规模有望突破1300亿。数据分析是指通过对数据资源的详细研究、概括总结以实现数据功能的最大化开发,包括商业智能(BussinessIntelligence,BI)分析、知识图谱、边缘计算、智能决策等细分市场。参考沙利文、艾瑞咨询、亿欧智库、IDC对数据分析细分市场的市场规模预测,2025年BI分析、知识图谱、边缘计算、智能决策的市场规模分别为94、246、629、353亿元,合计市场规模有望达到1322亿元。
BI分析进入智能BI时代,参与者包括BI解决方案商和大数据厂商两大类。BI分析平台的架构自下而上包括基础服务、数据接入、数据处理、数据可视化、内容呈现五个层级;市场参与者包括BI整体解决方案厂商、具备BI功能的大数据厂商两大类:1)BI整体解决方案厂商:分为传统BI厂商和敏捷BI厂商,主要包括帆软软件、远观数据、思迈特、网易数帆、奥威软件等企业;2)具备BI功能的大数据厂商:包括以亿信华辰、火山引擎、友盟为代表的数据存储与处理厂商,以美林数据、优易数据为代表的数据管理厂商,以及以全天智能、明略科技、易观数科为代表的数据分析与可视化厂商。
边缘计算高速发展,产业生态日益完善。边缘计算是指在数据源附近的网络边缘执行数据分析处理以优化云计算系统的方法,产业链上游为服务器、边缘网关、边缘计算终端、边缘计算平台等基础软硬件设施提供商;产业链中游为云服务厂商、电信运营商等边缘云建设服务商;产业链下游为行业垂直系统集成商、产业链综合服务商、边缘计算专家等系统集成商。据亿欧智库统计,2021年我国边缘计算市场规模为427.9亿元,其中边缘硬件市场规模为281.7亿元,软件与服务市场规模为146.2亿元,据亿欧智库预计,2025年我国边缘计算市场规模有望达1,988亿元,其中硬件市场规模1,359亿元,软件与服务市场规模629亿元。
2025年智能决策应用渗透有望超60%,智能决策时代或将加速到来。智能决策是指利用机器学习、深度学习、联邦学习、运筹学等技术,实现精准营销、销量预测、供应链管理、风险控制等业务环节的智能决策,已实现在金融、零售、制造、能源等行业的初步应用。根据IDC发布的《2021年中国智能决策解决方案市场份额》报告,2021年中国智能决策解决方案市场规模达8.9亿美元,同比增长66.4%,据IDC预测,到2025年,超过60%的中国企业将实现智能决策技术的应用,员工的工作效率和生产力较2021年将提升25%。目前国内主要参与厂商包括第四范式、同盾科技、邦盛科技、杉树科技等企业。
数据流通:“5+5”构建流通框架与市场环节
数据要素流通市场建设包括政策与法律法规、流通制度、模式、技术和标准五方面。其中,政策与法律法规是培育数据要素市场、促进数据要素安全流通的重要保障;流通制度是支撑数据要素流通宏观政策主张走向具体落地实践的主要途径和载体,有助于实现“数据可用不可见,数据不动价值动”;流通模式是融合政策、法律法规、制度、技术、标准和实现数据要素市场化配置的关键环节;流通技术为培育高质量的数据要素市场提供基础性技术支撑;流通标准是衔接政策法律法规、制度和技术的重要治理工具。
数据要素流通市场化发展涉及数据权利、登记、定价、交易、监管五个环节。基于数据要素流通框架,站在市场化整体发展路径角度,数据要素流通市场化发展涉及数据权利、数据登记、数据定价(收益分配)、数据交易、数据监管五个环节。其中,数据资产登记是数据要素流通的必要前提,解决权属链识别、市场准入和数据资产盘点等问题;数据评价和数据资产评估是实现数据价值流通的必经之路,解决数据要素全生命期质量和价值度量等问题;数据交易是推动数据要素流通、释放数据价值,培育数据要素市场的关键环节;数据监管在数据要素流通全过程制定数据安全合规监管监测体系,是保障数据要素安全流通流转的关键。
数据权利与确权:数据要素流通交易的基础
基于“三分原则”,根据由易到难和效益更大化两条标准得到数据确权路径。基于“三分原则”,可以得到数据产权内容矩阵。在产权矩阵的基础上,根据“由易到难、层层推进”,以及“对有助于实现社会和个人效益更大化的数据优先确权”两条原则,得到确权的顺序路径。例如,企业数据构成最复杂,且准公共品的企业数据产权束内容最多(包含公有、基础数据、衍生数据产权),因此确权顺序排在最后。最终得到数据确权的顺序为图中A→B→C→D→E→F。此环节主要由区块链(存证、追溯)、现代密码、数据水印等技术支持。
2026年,全球数据量预计达175ZB,数据确权市场前景广阔。目前,国内数据确权暂未形成明确的商业模式。但是从数据量上看,据IDC数据,2025年,全球数据量总和预计高达175ZB(1泽字节相当于1万亿GB)。2017年,中国的数据产生量约占全球数据产生量的23%,按照该占比计算,2025年,中国数据量约为40.3ZB,数据确权市场前景广阔。
数据登记:确认数据合法性的保障
数据定价&收益分配:量化数据估值,确定数据收益
我国基本确立了由数据评价与价值评估两个环节组成的数据资产定价模式。数据定价指的是依据数据质量、成本、应用评价结果,使用相应方法对被评估数据进行量化估值。依据《数据资产评估指导意见(征求意见稿)》《信息技术大数据数据资产评估》团体、国家标准征求意见稿,我国已通过全面分析数据的技术属性和财务属性,初步形成了包含数据评价与价值评估两个环节的数据资产定价基本模式:1)数据评价环节:包括质量要素、成本要素、应用要素三部分的技术评价;2)价值评估环节:由于数据资产无实物形态且具有非货币性,可类比无形资产,采用成本法、收益法、市场法对数据资产价值进行评估。
静态定价策略与动态定价策略相结合的方法,更适合不完全市场下的数据定价实践。事实上,由于数据资产具有重置成本难确定、价值可持续挖掘、数据使用寿命不易估计、交易市场规模小等特点,并不能完全等同无形资产定价。在目前的不完全市场下,数据价格受数据量、数据种类、数据深度、数据完整性和数据实时性等多因素影响。因此,采用静态定价策略与动态定价策略相结合的方式或更为科学。静态定价策略包括固定定价、差别定价、拉姆齐价格;动态定价策略包括自动计价、协商定价、拍卖式定价。
完善理论框架和实现动态定价或是数据定价模式的研究重点。目前,对于数据定价的研究主要依赖于特定假设,许多实际问题仍缺乏有效的解决途径。完善理论框架和实现动态定价或是数据定价的研究重点。1)完善理论框架:单一模型在数据定价中存在不足,应充分考虑利润、市场供求、数据产品特征和成本结构等的多指标体系,以成本导向的定价为价格下限、顾客导向的定价为价格上限、市场导向的定价为价格参照、利润和消费者福利最大化为目标。此外,也可结合大数据的价值特点,建立大数据定价的理论体系,实现多种定价手段联合定价;2)实现动态定价:数据要素的价值具有波动性,而目前市面上大多数定价方法为静态定价。因此,在实际进行数据定价时,需要充分结合市场情况、数据类型、预测模型进行数据要素的动态定价。
在数据确权、定价的基础上,交易平台和数据卖方按照收益分配机制实现数据价值。收益分配机制包含两部分。一部分是数据交易平台收益分配机制,包括:1)交易分成收益分配机制:在数据交易完成后大数据交易平台与数据卖方按约定好的比例分成相应的中介费用;2)保留数据增值收益权分配机制:大数据交易平台对数据保留增值收益权并以此为基础收费的方式。另一部分是大数据交易卖方收益分配机制,包括:1)一次易所有权收益分配机制:在数据交易中一次性转移数据占有权、使用权、处分权、收益权;2)多次交易使用权收益分配机制:即只针对数据使用权进行反复多次的交易,带来更多收益;3)保留数据增值收益权分配机制:数据卖方决定是否需要保留对收益权的占有,并决定按多少比例进行合同约定。
数据交易:培养数据要素市场的关键
数据交易对象包括“大数据&衍生品”和“传统数据&衍生品”两种数据商品。数据交易是数据供应方和需求方之间以数据商品作为交易对象,进行的以货币或货币等价物交换数据商品的行为。其中,数据交易的对象是数据商品,包括用于交易的原始数据或加工处理后的数据衍生产品。按照交易对象的不同,数据交易可分为两种:1)以大数据或其衍生品作为数据商品的数据交易;2)以传统数据或其衍生品作为数据商品的数据交易。基于参与数据交易市场的主体和行为,可构造出如下数据交易市场的基本框架图。
数据交易制度包括交易所制度、数据经纪人制度和数据空间制度。1)交易所制度:数据交易所类似于股票市场的场内交易,是数据交易双方集中交易的市场化场所,能够有效的促成买卖双方的公平交易,降低交易风险,同时,具备不可替代的高效性和规范性。2)数据经纪人制度:数据经纪人指的是通过匹配、沟通和撮合,促成买卖双方的数据交易并赚取佣金的中介机构或个人。该制度有利于盘活闲置数据资源,匹配市场供给需求,促进数字经济的快速流通。3)数据空间制度:数据空间是一个虚拟空间,促进受信任的商业生态系统中安全和标准化的数据交换和数据链接。数据空间目前仍处于倡议阶段,提供研究活动、制定标准、构建生态等功能。
上海数据交易所已实践了完整的数据交易流程。1)交易准备阶段:挂牌前要求数据产品完成合规、数据质量等一系列评估,在上海数据交易所的全数字化系统完成线上挂牌;2)交易合约阶段:交易主体根据交易规则,采用“供方定价、供需议价”等市场化定价方式,达成数据交易合约,依照合约约定,供需双方完成交付及清结算过程,数据交易完成后,上海数据交易所为交易方提供交易凭证;3)数据交付阶段:根据敏感级别,将数据分为S1~S4级,不同的数据产品,根据其所属分级等级,对应不同的交付方式和交付技术,交付不受时空限制,可由交易主体双方进行协商,同时可选择第三方交付服务商,实现交付安全、合规、成本、效率等方面的最佳平衡。
数据监管:保障数据要素安全流通流转
美国数据立法遵从分散立法模式,寻求数据权利保护与数据自由流通之间的平衡。美国从较为自由的数据监管模式逐步收紧。国家安全层面,美国先后颁布《美国外国投资风险审查现代化法》、《美国澄清海外合法使用数据法》,以严控关键技术和敏感个人数据领域的外商投资;数据开放层面,美国颁布《美国信息自由法》《美国开放政府数据法》等促进非敏感数据的流通;个人数据保护方面,美国在多个领域均有立法保护,如金融行业的《美国金融消费者保护法》,电信行业的《美国计算机欺诈和滥用法》;数据跨境流动方面,美国先后颁布《信息安全港框架协议》《隐私盾协议》,以规范存储在国外的数据。
早期,我国主要通过制定规范性文件,将个人数据作为网络空间安全的一部分进行规制。我国陆续出台了《关于维护互联网安全的决定》《关于加强网络信息保护的决定》《信息安全技术公共及商用服务信息系统个人信息保护指南》等规定和指南,分别从个人数据资料处理监管范围,打击网络信息违法犯罪行为,个人数据测评监督机制等方面进行了规定。