数据脱敏具体指的是什么?又是如何进行数据脱敏

有人说,智能手机就如同一部窃听器,无论你开机或者关机,它都会无时不刻地监听着用户的一举一动,而随着车联网的发展,汽车会越来越智能化,就像是一部“装着四个轮子的手机”,可想而知,智能车辆上的信息安全问题可能比智能手机更加严重。比如车辆的定位信息、相机所记录下的路端画面、车舱内的乘客录音录像等等,这些数据作为智能车发展的“燃料剂”,既是不可或缺的,又需要去避免敏感数据的泄露风险。

那么,数据脱敏具体指的是什么?又是如何进行数据脱敏?数据脱敏在自动驾驶的应用中又面临什么样的挑战?

一、何谓数据脱敏

1.1数据脱敏的定义一般来说,数据脱敏技术指的是在对敏感数据进行处理的过程中,通过数据变形(将数据变成模型想要的结构,如1234->1**4)的方式来降低数据的敏感程度的一种数据处理技术。

总的来说,在一定层面上,去标识化、匿名化及假名化,都可以归为数据脱敏。

在大数据时代下,数据脱敏技术并不是什么新鲜技术,它在其它领域中已经被广泛应用,比如政务、金融、医疗、电信等。

在自动驾驶领域,中汽协发布的《汽车传输视频及图像脱敏技术要求与方法》也定义了数据脱敏,其主要指通过一定方法在车端数据处理设备上消除原始环境数据中的敏感信息,使得信息主体无法被识别或者关联,且处理后的信息不能被复原,同时保留目标环境业务所需的数据特征或内容的数据处理过程。

为了让读者更好地理解,我们以人脸脱敏为例做个解释:数据脱敏就是将人脸的关键信息隐去或者模糊化(通俗点说,就是在脸部打了个马赛克),甚至不能让别人通过其它关联信息(比如习惯性出没的地方、本人所穿的衣服等等)来识别出这个人“具体是谁”,并且整个过程是不可逆的,但该人脸的基础语义信息仍然存在,即自动驾驶系统还是能识别出“这是一个人”。

1.2数据脱敏的类型从数据脱敏的类型来看,主要可分为静态数据脱敏和动态数据脱敏。静态数据脱敏指的是数据的管理方将数据抽取进行脱敏处理后,下发给下游环节,供下游随意取用和读写,脱敏后数据与生产环境相隔离,满足业务需求的同时保障生产数据库的安全,例如自动驾驶车辆的系统开发、仿真测试等。动态数据脱敏指的是数据使用方直接访问生产数据的使用场景,其特点为在处理敏感数据时,需要实时进行脱敏,并且也可以实时修改脱敏规则。两者最大的区别在于,静态数据脱敏是在脱离数据生产环境后进行的,而动态数据脱敏则是直接在数据生产环境中进行的。在智能汽车的行驶过程中,车上的大部分敏感数据的产生及处理都是实时的,所以,在自动驾驶领域中,数据脱敏主要是采取动态数据脱敏。

1.3自动驾驶中数据脱敏的痛点

在中央计算平台的趋势下,智能汽车产生的敏感数据量会比手机更大,甚至无法估量。以感知为例,车端的传感器越来越多,传感器的性能也越来越好,这就造成整个感知系统能够获取到的数据也会越来越丰富。

那么,了解了何为数据脱敏后,智能汽车中具体是如何进行数据脱敏的?在数据脱敏的过程中,又需要注意哪些事项?

关于数据脱敏的具体步骤,某主机厂信息安全工程师介绍道:“数据脱敏主要处于数据全生命周期的处理环节,首先,技术人员需要对数据做好分类分级,并把敏感数据识别出来,要确定哪些数据属于敏感数据字段;其次,需要确定具体的脱敏策略;再者,将制定好的脱敏方案给到执行者,执行设定好的脱敏方案;最后,在数据脱敏执行完毕后,对于整个数据的执行过程也会有一些审计工作。”

2.1敏感数据的分类分级

既然数据脱敏的第一步是要先对敏感数据进行分类分级,但智能汽车上所产生的数据庞大且复杂,那么,在理清楚这些数据资产时,就需要整理出一份数据资产的目录清单。

那么,哪些数据是敏感数据?又该按照什么样的逻辑或者标准来进行分类分级?从宏观层面来看,敏感数据主要可分为3类:结构化数据、非结构化数据及半结构化数据。

结构化数据是指可通过二维表结构来表达和实现的数据,比如银行账号、身份证号码、手机号、日期等;

非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,比如图像、声音、文本等;

半结构化数据是指介于完全结构化数据和完全无结构的数据之间的数据,比如HTML文档、JSON、XML等。

但智能汽车上的数据量非常大,数据类型也非常杂,不能单纯以这三个维度来对敏感数据进行分类分级。某主机厂信息安全工程师说:“国内的《网络安全法》提出了数据需要做到分类分级,随后出台的《数据安全法》也更加明确数据需要做到分类分级,但各行各业的数据类型比较丰富,国内没有一个统一的标准去对数据进行分类分级,2021年,汽车行业内出台了《车联网信息服务数据安全技术要求》对数据分类分级做出了一定标准,但它并不是一个强制性标准。”

图:《车联网信息服务数据安全技术要求》中数据分类标准

李浩文也提到,智能汽车领域未来必然会有更细的数据分类分级规范,但现阶段已出台的规范也仅仅做到概念级的建设指引,恐怕对于主机厂来说,仅凭这些标准来做一些实操工作,其难度会有些大。结合多位专家的观点来看,智能汽车行业目前尚未形成细化的数据分类分级标准,主机厂需要根据自身的实际业务需求,从不同场景、不同功能等维度出发,去做敏感数据的分类。同时,在分类完后,主机厂仍需要根据不同等级的敏感程度,对数据进行分级(如一般、重要、敏感),并对不同级别采取不同的脱敏策略。

2.2选择合适的脱敏策略

在梳理完数据资产后,又该如何选择脱敏策略?

脱敏规则指的是在原始脱敏算法的基础上,将一种或者多种脱敏算法进行组合,并应用于特定场景下的敏感数据,而脱敏策略指的是在不同场景下选择怎样的的脱敏规则。

表:脱敏算法、脱敏规则、脱敏策略概念示例

一方面,不同类型的数据所对应的脱敏算法和脱敏策略都不同。根据《汽车传输视频及图像脱敏技术要求与方法》中的介绍,非结构化数据(如人脸、车牌)一般采用的是统一色块的脱敏算法,即用统一色块对视频中每一帧中的人脸和车牌位置信息进行替换,通过色块替换直接擦除原图上像素级别数据,确保擦除后的数据信息不可逆和不可复原。

图:人脸脱敏示意图

而掩码、取整等脱敏算法主要用于车主的身份信息、自车的车牌号、车控数据等结构化数据。以车主的个人姓名为例,需要应用映射技术(Hashing)将车主名“张三”变为对应的hash值“456684923”。

2.3让脱敏对自动驾驶系统的影响最小化

自动驾驶的首要原则是安全,而数据脱敏是否会造成过度脱敏,从而影响自动驾驶系统整体的安全水平,又如何让脱敏对自动驾驶系统的影响最小化?

2.4数据在全生命周期中需要加密

通常来说,数据脱敏仅在数据处理环节出现,但实际上,数据脱敏其实在数据的整个生命周期中都是存在的。

三、自动驾驶数据脱敏的市场格局3.1玩家类型

数据脱敏的主要玩家是主机厂和第三方数据服务商,并且主机厂会是数据脱敏业务的主导方。

3.2商业模式

目前,主机厂在数据脱敏业务上缺人也缺经验,所以仍然会选择以外部合作为主,那么,具体合作模式是什么样?

四、数据脱敏在自动驾驶应用中的挑战

自动驾驶车端的敏感数据会来自于自动驾驶系统的感知、定位、决策、控制各个环节。

比如在感知系统中,传感器可不止是相机。其它的传感器也同样会有一些敏感信息出现。以FMCW激光雷达为例,除了可以获取到一些测速测距的深度信息外,激光雷达甚至可以配合其它传感器,实现三维的实时建图。当前,炙手可热的4D毫米波雷达,相比于传统的毫米波雷达来说,它具备了如同激光雷达的一样的点云生成能力,并能够获取到物体的高度信息,比如桥墩的高度信号等。一方面,不同类型的传感器会带来不同的敏感数据;另一方面,不同类型的传感器所能提供的敏感数据等级也略有不同。

相机带来的是帧图像的数据格式,而激光雷达和毫米波雷达带来的则是点云形式的数据格式,在数据脱敏时,必须要在理解传感器的前提下,才可能更好地处理敏感数据。

即使同一类型的传感器,由于来自不同供应商,传感器带来的数据格式也有可能不同,需要对它们各自的数据分别进行脱敏处理。

一般来说,相机所能获取到的敏感数据量会多于激光雷达,更多于毫米波雷达,而数据敏感程度上,相机的数据敏感程度也更高于其它二者。

表:各传感器之间的敏感数据情况

4.2数据脱敏的程度较难把控

敏感数据到底需要脱敏到什么程度,才可以真正实现敏感信息的完全脱敏?同时,数据脱敏是否会由于过度脱敏而造成某些关键信息的损失?

THE END
1.中国第一汽车申请一种交通嘲识别模型的专利,提高图像分割精度同时金融界2024年12月2日消息,国家知识产权局信息显示,中国第一汽车股份有限公司申请一项名为“一种交通场景识别模型的训练方法、识别方法及系统”的专利,公开号CN 119048752 A,申请日期为2024年8月。 专利摘要显示,本申请提供一种交通场景识别模型的训练方法、识别方法及系统,其中,该训练方法获取交通场景数据集,并对交通https://www.163.com/dy/article/JIDEKRJP0519QIKK.html
2.Odoo14版本发行说明,全面了解新特性和变化Odoo中文应用商店数据清理 复制 自动识别和合并重复记录。 现场清洁 设置文本字段的自动格式设置和/或清除。 讨论 活动 更改活动类型时,请保留自定义摘要。 活动 显示活动摘要,如果未设置摘要,则回退到活动类型。 活动 小部件改进。显示分配了谁(如果不是当前用户)。图标现在显示活动类型。 https://www.sunpop.cn/odoo14_features_new/
3.信息技术学业水平考试模拟测试选择题判断题(一)69.社区医疗服务需要工作人员逐户上门登记老年人信息,该过程属于( ) A.信息发布 B.信息采集 C.信息编码 D.信息交流 70.为了计算机系统的安全,建议要有( ) A.文字处理软件 B.网页制作软件 C.图片处理软件 D.防病毒软件 71.下列实例中,使用了语音识别技术的是( ) A.按导航仪的语音提示驾驶汽车 B.用“https://www.wjx.cn/jq/14222784.aspx
4.ocr图片识别技术是什么?OCR的作用有哪些?车牌识别:保险移动勘察 证件识别:保险移动勘察;出保单、借贷等录入个人信息 Vin码识别:录入VIN码解析出车型库,估算养车用车成本,对汽车做评估及金融方案 OCR的作用有哪些? 首先我们要清楚在进行图片的识别过程中很容易出现各类的问题,对于这些问题大多是来自于图片识别不出来。图片信息有很多种类型,文字、图形等等。要https://www.foxitsoftware.cn/scanner/jiaocheng/691.html
5.驾考宝典摩托车隐私政策摘要分别需要获取相机、相册(iOS)/读取外部存储(Andorid)权限。图片文件将上传到驾考宝典摩托车App服务器并调用阿里云OCR API(即应用程序接口。由阿里云计算有限公司提供 官网:https://ai.aliyun.com/ocr联系电话:400-80-13260)识别图中文字。图片文件将在上传后的30个自然日后删除。http://laofuzi.kakamobi.com/protocol/protocol.html?_product=%E9%A9%BE%E8%80%83%E5%AE%9D%E5%85%B8%E6%91%A9%E6%89%98%E8%BD%A6&_productCategory=jiakaobaodian&_appName=jiakaomoto&protocolKey=jkbdPrivateAgreement
6.智东西周报:中国类脑芯片登上Nature封面最新AI提前2天预测急性肾7月30日消息,今日头条宣布正式推出新版灵犬反低俗助手,同时支持图片和文本识别。据今日头条方面介绍,在文本识别领域,新版“灵犬”同时应用了“Bert”和半监督技术,训练数据集包含920万个样本,准确率提升至91%。在图片识别领域,“灵犬”采用深度学习作为解决方案,在数据、模型、计算力等方面均做了针对性优化。用户目前https://zhidx.com/p/157282.html
7.数据科学实战手册(R+Python)本书的主要内容有:学习数据科学项目的流程,并使用它来获取、清洗、分析和可视化数据;在多个实战项目中理解数据科学的关键概念;通过一步一步的代码实例来掌握R和Python强大的数据编程能力。无论你是数据科学的新手,还是有经验的专业人士,你都可以从本书提供的89个实际案例中掌握数据科学的关键概念和利用R、Python进行数https://www.epubit.com/bookDetails?id=N5839
8.新闻中心——驱动之家:您身边的电脑专家猛兽峡谷NUC发布有段时间了,7月份ChinaJoy展会上正式在国内亮相,这次的NUC不走小巧、轻薄路线,主要面向游戏玩家,机箱空间达到了8L——当然比起ATX大型游戏PC还是迷你不少。 配置上,猛兽峡谷有2个主要的配置,酷睿i7版使用的是酷睿i7-11700B处理器、酷睿i9版是酷睿i9-11900KB——两款CPU都相当有迷惑性,不是11代酷https://news.mydrivers.com/blog/20210827.htm
9.2022国央企数字化实践报告——深度解读国央企不同嘲数字化痛点中汽协会打造行业级区块链平台,汽车数据共享、监管双落地 某大型能源集团以湖仓一体数据底座强韧数据能力 某石油石化企业率先建成智慧加油加气站零售管理平台,多维度激活新业务增长点 某国有银行以数字化重塑普惠金融业务能力 某国有建筑企业借助低代码平台提升数字化集成管理水平 https://www.shangyexinzhi.com/article/5006827.html
10.阿维塔阿维塔汽车官网特别提示您注意,如信息无法单独或结合其他信息识别到您的个人身份,其不属于法律意义上您的个人信息;当您的信息可以单独或结合其他信息识别到您的个人身份时或我们将无法与任何特定个人信息建立联系的数据与其他您的个人信息结合使用时,这些信息在结合使用期间,将作为您的个人信息按照本隐私政策处理与保护。 https://www.avatr.com/protocol?type=10181001
11.超详细的编码实战,让你的springboot应用识别图片中的行人汽车如果您之前对深度学习和YOLO、darknet等有过了解,相信您会产生疑问:Java能实现这些? 没错,今天咱们就从零开始,开发一个SpringBoot应用实现上述功能,该应用名为yolo-demo 让SpringBoot应用识别图片中的物体,其关键在如何使用已经训练好的神经网络模型,好在OpenCV集成的DNN模块可以加载和使用YOLO4模型,我们只要找到使用Ophttps://cloud.tencent.com/developer/article/1912828
12.人工智能快速发展趋势下,中国该如何应对?网络异常,图片无法展示 | 5、终端场景—智能驾驶。随着智能驾驶等级的提高,技术不断迭代促使车用AI芯片性能逐步增强 SAE(国际自动机工程师学会)将自动驾驶分为六个级别,从L0(非自动化)到L5(完全自动化)。每一级别需要强大的算力进行实时分析、处理大量数据和执行复杂的逻辑运算,对计算能力有着极高的要求。L1(驾驶https://developer.aliyun.com/article/1179745
13.基于3D视觉的汽车轮胎胎面花纹缺陷检测系统AutomotiveTire目前,国内对于首胎胎纹的识别验证,普遍还是采用人工的方式,这种方式存在耗时长,精度低,容易遗漏等缺点。为了解决人工识别出现的种种问题,本文设计了基于3D视觉技术汽车轮胎胎面花纹缺陷检测系统,该系统收集到的是轮胎胎面花纹的点云数据,经过处理可得到轮胎胎面花纹的二维深度图,再由训练好的语义分割模型进行检测识别。https://image.hanspub.org/Html/9-2960379_87048.htm
14.www.jxmzxx.com/appnews/377540.html这样一来我们的"能源菜单"就更丰富了,再也不怕有人卡我们的脖子了。 你看这不就是传说中的"能源自由"吗? 说实话想到这里,我都忍不住想为我们的科学家们鼓掌喝彩。 他们可真是给我们中国人长脸了! 以前一提到石油,我们总是仰人鼻息。 现在好了我们也能在国际能源舞台上昂首挺胸了。 http://www.jxmzxx.com/appnews/377540.html