有人说,智能手机就如同一部窃听器,无论你开机或者关机,它都会无时不刻地监听着用户的一举一动,而随着车联网的发展,汽车会越来越智能化,就像是一部“装着四个轮子的手机”,可想而知,智能车辆上的信息安全问题可能比智能手机更加严重。比如车辆的定位信息、相机所记录下的路端画面、车舱内的乘客录音录像等等,这些数据作为智能车发展的“燃料剂”,既是不可或缺的,又需要去避免敏感数据的泄露风险。
那么,数据脱敏具体指的是什么?又是如何进行数据脱敏?数据脱敏在自动驾驶的应用中又面临什么样的挑战?
一、何谓数据脱敏
1.1数据脱敏的定义一般来说,数据脱敏技术指的是在对敏感数据进行处理的过程中,通过数据变形(将数据变成模型想要的结构,如1234->1**4)的方式来降低数据的敏感程度的一种数据处理技术。
总的来说,在一定层面上,去标识化、匿名化及假名化,都可以归为数据脱敏。
在大数据时代下,数据脱敏技术并不是什么新鲜技术,它在其它领域中已经被广泛应用,比如政务、金融、医疗、电信等。
在自动驾驶领域,中汽协发布的《汽车传输视频及图像脱敏技术要求与方法》也定义了数据脱敏,其主要指通过一定方法在车端数据处理设备上消除原始环境数据中的敏感信息,使得信息主体无法被识别或者关联,且处理后的信息不能被复原,同时保留目标环境业务所需的数据特征或内容的数据处理过程。
为了让读者更好地理解,我们以人脸脱敏为例做个解释:数据脱敏就是将人脸的关键信息隐去或者模糊化(通俗点说,就是在脸部打了个马赛克),甚至不能让别人通过其它关联信息(比如习惯性出没的地方、本人所穿的衣服等等)来识别出这个人“具体是谁”,并且整个过程是不可逆的,但该人脸的基础语义信息仍然存在,即自动驾驶系统还是能识别出“这是一个人”。
1.2数据脱敏的类型从数据脱敏的类型来看,主要可分为静态数据脱敏和动态数据脱敏。静态数据脱敏指的是数据的管理方将数据抽取进行脱敏处理后,下发给下游环节,供下游随意取用和读写,脱敏后数据与生产环境相隔离,满足业务需求的同时保障生产数据库的安全,例如自动驾驶车辆的系统开发、仿真测试等。动态数据脱敏指的是数据使用方直接访问生产数据的使用场景,其特点为在处理敏感数据时,需要实时进行脱敏,并且也可以实时修改脱敏规则。两者最大的区别在于,静态数据脱敏是在脱离数据生产环境后进行的,而动态数据脱敏则是直接在数据生产环境中进行的。在智能汽车的行驶过程中,车上的大部分敏感数据的产生及处理都是实时的,所以,在自动驾驶领域中,数据脱敏主要是采取动态数据脱敏。
1.3自动驾驶中数据脱敏的痛点
在中央计算平台的趋势下,智能汽车产生的敏感数据量会比手机更大,甚至无法估量。以感知为例,车端的传感器越来越多,传感器的性能也越来越好,这就造成整个感知系统能够获取到的数据也会越来越丰富。
那么,了解了何为数据脱敏后,智能汽车中具体是如何进行数据脱敏的?在数据脱敏的过程中,又需要注意哪些事项?
关于数据脱敏的具体步骤,某主机厂信息安全工程师介绍道:“数据脱敏主要处于数据全生命周期的处理环节,首先,技术人员需要对数据做好分类分级,并把敏感数据识别出来,要确定哪些数据属于敏感数据字段;其次,需要确定具体的脱敏策略;再者,将制定好的脱敏方案给到执行者,执行设定好的脱敏方案;最后,在数据脱敏执行完毕后,对于整个数据的执行过程也会有一些审计工作。”
2.1敏感数据的分类分级
既然数据脱敏的第一步是要先对敏感数据进行分类分级,但智能汽车上所产生的数据庞大且复杂,那么,在理清楚这些数据资产时,就需要整理出一份数据资产的目录清单。
那么,哪些数据是敏感数据?又该按照什么样的逻辑或者标准来进行分类分级?从宏观层面来看,敏感数据主要可分为3类:结构化数据、非结构化数据及半结构化数据。
结构化数据是指可通过二维表结构来表达和实现的数据,比如银行账号、身份证号码、手机号、日期等;
非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,比如图像、声音、文本等;
半结构化数据是指介于完全结构化数据和完全无结构的数据之间的数据,比如HTML文档、JSON、XML等。
但智能汽车上的数据量非常大,数据类型也非常杂,不能单纯以这三个维度来对敏感数据进行分类分级。某主机厂信息安全工程师说:“国内的《网络安全法》提出了数据需要做到分类分级,随后出台的《数据安全法》也更加明确数据需要做到分类分级,但各行各业的数据类型比较丰富,国内没有一个统一的标准去对数据进行分类分级,2021年,汽车行业内出台了《车联网信息服务数据安全技术要求》对数据分类分级做出了一定标准,但它并不是一个强制性标准。”
图:《车联网信息服务数据安全技术要求》中数据分类标准
李浩文也提到,智能汽车领域未来必然会有更细的数据分类分级规范,但现阶段已出台的规范也仅仅做到概念级的建设指引,恐怕对于主机厂来说,仅凭这些标准来做一些实操工作,其难度会有些大。结合多位专家的观点来看,智能汽车行业目前尚未形成细化的数据分类分级标准,主机厂需要根据自身的实际业务需求,从不同场景、不同功能等维度出发,去做敏感数据的分类。同时,在分类完后,主机厂仍需要根据不同等级的敏感程度,对数据进行分级(如一般、重要、敏感),并对不同级别采取不同的脱敏策略。
2.2选择合适的脱敏策略
在梳理完数据资产后,又该如何选择脱敏策略?
脱敏规则指的是在原始脱敏算法的基础上,将一种或者多种脱敏算法进行组合,并应用于特定场景下的敏感数据,而脱敏策略指的是在不同场景下选择怎样的的脱敏规则。
表:脱敏算法、脱敏规则、脱敏策略概念示例
一方面,不同类型的数据所对应的脱敏算法和脱敏策略都不同。根据《汽车传输视频及图像脱敏技术要求与方法》中的介绍,非结构化数据(如人脸、车牌)一般采用的是统一色块的脱敏算法,即用统一色块对视频中每一帧中的人脸和车牌位置信息进行替换,通过色块替换直接擦除原图上像素级别数据,确保擦除后的数据信息不可逆和不可复原。
图:人脸脱敏示意图
而掩码、取整等脱敏算法主要用于车主的身份信息、自车的车牌号、车控数据等结构化数据。以车主的个人姓名为例,需要应用映射技术(Hashing)将车主名“张三”变为对应的hash值“456684923”。
2.3让脱敏对自动驾驶系统的影响最小化
自动驾驶的首要原则是安全,而数据脱敏是否会造成过度脱敏,从而影响自动驾驶系统整体的安全水平,又如何让脱敏对自动驾驶系统的影响最小化?
2.4数据在全生命周期中需要加密
通常来说,数据脱敏仅在数据处理环节出现,但实际上,数据脱敏其实在数据的整个生命周期中都是存在的。
三、自动驾驶数据脱敏的市场格局3.1玩家类型
数据脱敏的主要玩家是主机厂和第三方数据服务商,并且主机厂会是数据脱敏业务的主导方。
3.2商业模式
目前,主机厂在数据脱敏业务上缺人也缺经验,所以仍然会选择以外部合作为主,那么,具体合作模式是什么样?
四、数据脱敏在自动驾驶应用中的挑战
自动驾驶车端的敏感数据会来自于自动驾驶系统的感知、定位、决策、控制各个环节。
比如在感知系统中,传感器可不止是相机。其它的传感器也同样会有一些敏感信息出现。以FMCW激光雷达为例,除了可以获取到一些测速测距的深度信息外,激光雷达甚至可以配合其它传感器,实现三维的实时建图。当前,炙手可热的4D毫米波雷达,相比于传统的毫米波雷达来说,它具备了如同激光雷达的一样的点云生成能力,并能够获取到物体的高度信息,比如桥墩的高度信号等。一方面,不同类型的传感器会带来不同的敏感数据;另一方面,不同类型的传感器所能提供的敏感数据等级也略有不同。
相机带来的是帧图像的数据格式,而激光雷达和毫米波雷达带来的则是点云形式的数据格式,在数据脱敏时,必须要在理解传感器的前提下,才可能更好地处理敏感数据。
即使同一类型的传感器,由于来自不同供应商,传感器带来的数据格式也有可能不同,需要对它们各自的数据分别进行脱敏处理。
一般来说,相机所能获取到的敏感数据量会多于激光雷达,更多于毫米波雷达,而数据敏感程度上,相机的数据敏感程度也更高于其它二者。
表:各传感器之间的敏感数据情况
4.2数据脱敏的程度较难把控
敏感数据到底需要脱敏到什么程度,才可以真正实现敏感信息的完全脱敏?同时,数据脱敏是否会由于过度脱敏而造成某些关键信息的损失?