同盾AI研究院深度学习首席专家李宏宇:解构知识联邦,开创数据“可用不可见”新局面雷峰网

分成跨样本的联邦、跨特征的联邦,甚至还有同时基于这两种形式的复合型联邦。

跨样本的联邦更多是同构的数据,数据特征一致,但数据拥有方式不同。跨特征的联邦,更多会存在不同的机构间。当然这还是要有相同的、有交集的用户才能进行跨特征的联邦。

除了这两种形式之外,更复杂的是既要跨样本又要跨特征复合型联邦。

可以分为联邦计算、联邦学习、联邦推理等。刚才提到联邦学习包含的主要是训练和预测两个阶段。

最早谷歌做联邦学习,更强调训练。训练结束后,模型预测直接发送到各个客户端的手机,用户自行预测。但在跨特征联邦,联邦训练和联邦预测都会遇到非常复杂的问题。

联邦计算,类似于安全多方计算。

联邦推理,更多是知识层上的推理过程。

比如疫情期间,为了调查患者周围的可疑人群,会涉及到很多数据,包括行为轨迹、社交网络、住宿交通等等。

但这些放在一起不是单纯再训练,是想把已有的知识做更多的知识演绎,推理出来新的知识,最终锁定嫌疑人群。

知识联邦也可以分为是个体间、机构内和机构间的联邦。机构间的联邦大家都比较熟悉了,机构内部的联邦其实也非常多。

比如大型跨国机构希望把在中国境内获取到的数据,能够帮助他们在东南亚、甚至是其他国家能够有更大的帮助,但会涉及跨境数据交换的问题,此时机构内的联邦就发生了。

分为信息层、模型层、认知层,和知识层联邦。

信息层:主要发生在联邦的数据转到第三方的服务器之前,需要先把所有数据加密,或通过某种形式转换成为有价值的信息。

模型层:发生在模型训练过程中,跟之前提到的联邦训练的过程实际上是一致的。

认知层:也发生在模型训练过程中,但并不把模型参数聚集在一起联动,而是把局部训练之后产生的粗浅认知进行联邦,变得更合理。

知识层:前面形成很多认知结果之后,把它存成知识库。这种知识库其实每一家机构都有,能够组成一个知识网络。如果在知识网络上不断推理和演绎,挖掘出更有价值的知识,能提前预判事情的发生,最终形成合理决策。

比如疫情爆发最终导致全球股票、期货大跌;比如黑龙江等地成为二次爆发疫情的高风险区,其实这些都是知识推理的过程。

具体来看,信息层联邦在隐私保护方面,对加密技术要求更高。加密技术没有到位,就无法很好保护参与方数据。所以信息层的联邦一般要求数据脱敏加密之后,一定是以密文形式在第三方服务器上计算。

信息层更多应用在联邦计算的过程当中,比如金融经常出现的多头共债问题。在大产品的运维和升级过程中,经常会做的比如A/Btest,这些都可以在信息层完成。

信息层也可以做联邦学习的工作,但它不是在每一个参与方向去做训练学习,而是把所有的密文数据直接放在第三方服务器上,再在密文上训练学习。

除此之外,还可以在信息层上做联邦检索。比如失信人员黑名单的查询,这也是一个普遍存在的需求。

跨特征联邦时,需要做的用户对齐可以在信息层上完成。

模型层,是用本地数据训练本地模型,把模型参数变化加密之后,传送到第三方进行聚合。

认知层,是在每一个参与方训练本地的数据,提取本地的模型的特征表达,加密之后上传到第三方服务器,实现集成。

这种应用主要出现在多模态智能信贷、智能身份认证。

在跨样本联邦中,认知层有点类似于机器学习里的集成学习,不过联邦会更关心数据隐私保护。

关于知识联邦的更多技术细节,可以查看我们近期发布的白皮书。

智邦平台的核心有四大模块,第一是任务场景。

现在平台中的任务场景还需要定制开发,一个场景需要定制一个模型。一个常见问题是,以前有很多面向不同任务场景已经建成的模型,现在还没有办法快速联邦化。

第二个模块是功能服务。智邦平台解决的是真实应用中会遇到的问题,比如模型发布,参与方之间的数据贡献怎么衡量?费用怎么统计?

第三个模块是开放计算平台。平台会模块化,并支持开放式、自动化建模,方便快速建模的操作。

除了四个核心模块这里有两个关键的中间件,一是通信设施,二是数据交换沙箱。

跨样本联邦相对来讲比较容易落地,但跨特征联邦必须要有这么一个多元异构数据的交换沙箱才能够完成,尤其是在内网外网的通讯。这里涉及到的更多工作就不再展开了。

跨样本时,有很多深度模型、树模型都可以直接采用,但跨特征联邦很多模型需要定制。

尤其是在金融行业,大家更关心模型的可解释性,所以很多时候都不用深度模型,而会选择树模型。智邦平台就提供了包括深度模型、树模型在内的一些联邦算法可供用户选择

跨样本联邦中还有一个常见问题是,用户数据太少,也就是小样本的问题。平台中也提供了基于小样本进行联邦(学习)的方案。

简单来讲,平台三大亮点是:安全、智能和实用。平台通过联邦的数据交换沙箱和安全交换协议来解决安全性问题;平台提供多种智能模型供大家自由选择;同时从贡献的评估到计费,平台提供了一系列功能解决实际应用问题。

在网络安全方面,将网络安全域划分成参与方的私有域、交换域和联邦域三部分,数据交换发展在交换域,联邦集成是在联邦域完成。

在数据安全和隐私保护方面,从隐私数据处理到模型数据的传输,平台提供了多种安全加密方式,保证不同机构间交集外所有用户数据的安全性。

不过对于联邦平台的安全性和隐私保护等级,目前为止还没有一个类似等保的标准,能对平台工具进行等级认证。

在金融行业应用中,很多时候大家弄不清楚哪些数据属于隐私、敏感程度达到什么程度。今年3月,央行出台的个人金融信息保护技术规范,把很多金融信息分成了C1、C2、C3的等级。根据敏感等级,可以采用不同的技术手段进行数据去标识化和脱敏。

在联邦应用中,经常会涉及到的主要还是C2级数据。C1级敏感数据,更多是标记信息。不过C1、C2、C3的划分也具有相对性,当相同的信息组合在一起,敏感度也会升级。所以考虑数据隐私保护,必须要在一开始就要做数据分级完整规划。

总的来说,智邦平台是参照知识联邦体系打造出来的一站式联邦平台。平台在算法能力方面,不仅支持联邦学习,还支持安全多方计算;也提供了非常朴实有效的一些算法;同时提供了联邦特征选择方法,来保证参与方的数据质量。

在安全机制方面,平台提供了多种加密算法,比如在数据安全对齐中,平台可以保证参与方交集外数据不会泄露。同时保证,标签信息在训练中不会参与传输。

而平台最核心的联邦数据安全交换沙箱则可以实现对数据标准化和脱敏处理,同时封装了一系列数据安全交换协议,供联邦使用。

在实施应用方面,平台在本地计算可以采用Spark计算方式,效率高,也方便和现有的机构大数据生态打通。同时系统采用容器化方式,方便部署实施。

统建模方式里,运营商如果没有y数据,无法单独建模;双方又都不可能暴露自己隐私数据。

智邦平台中会先由中间方协调者分发一个模型,然后分别基于本地的数据计算梯度。

尽管运营商没有标签信息,但平台在这里采用了计算换安全的方式,也是基于不经意传输(OT)方法,把所有可能梯度都汇集到有标签的一方,让它筛选和聚合。这时可以在y标签没有被传输的情况下,快速完成模型迭代。

当然,这可能会让计算成本高一点,但联邦建模的隐私性肯定是要远远大于传统联合建模。如果不考虑通信问题,这两种建模方式的收敛速度基本上一致。准确性也差不多。

企业信审相对更复杂,会有公开数据、自有数据或是第三方数据,各方数据汇集在一起,形成完整信息模型,这是很大的工作量,于是我们有了这样一个信审模型。

不过如果能利用调查、工商、司法等信息,可以进一步做联邦推理,这时的信审才能算是完整的。

这是典型的跨样本应用场景,要做的是无感认证。

简单说,输入密码的时候,我们每个人都有一些固定的输入行为习惯,这些行为习惯能通过学习方法提取出相应特征。

这就可以在密码保护的同时,加一层无感认证,在输密码的时候自动判断用户行为,判断输密码的是否为用户本人。

但是每个用户端不可能暴露自己的数据,同时也很难采集到每个用户很多行为数据,这就要用到基于小样本的联邦元学习。

联邦元学习的隐私性肯定会要大于非联邦方式;准确率也会比非元学习高很多。

很多机构都借贷评估时都会面临一个问题:这个用户有没有在其他家做过贷款?他的风险是不是已经透支得差不多了?

这时就希望能得到很多其他机构的数据,这个过程通常不需要去训练学习,而是会利用一些简单的知识进行判断。

累计借贷风险可以通过安全的统计计算方式,在保证各家数据隐私不会泄露的前提下,汇总计算出该用户的累计借贷风险。

在自动化大运维平台体系做A/Btest,我们通常会分流出来一批用户,然后判断软件上的某些改变会否让他们的浏览行为习惯发生变化,是否会对他们有偏好上的影响。

我们可以统计用户的信息,但不是直接收集用户操作行为数据,而是分别在用户端对他们的行为习惯进行统计计算,最终形成整体的统计特征作为统筹决策的依据。

现实应用中,我们会面对很多分散的小数据,知识联邦的目标是通过安全多方计算和学习,做到数据可用不可见,同时知识共建可共享。

智邦平台作为知识联邦参照实现的联邦平台,会逐渐形成一套开放的操作系统,用户可以组建和参与不同的任务联盟,或者从模型商店中选用不同的模型。系统逐步开放开源给大家,让更多用户参与其中,这也是我们整个智能开放操作系统的愿景。

智邦平台对银行消金非常有价值,可以持续提升其核心竞争力,并提高其风控质量,让其数据价值变现。同时,也可以帮助相应机构提升行业影响力,并满足监管对于数据安全和隐私保护的要求。

总结一下,知识联邦的落地实施有三个重点:

首先是连接,也就是连接多方,让多方参与进来,才会有联邦数据安全交换的问题。其次是智能,安全多方应用最终目的还是智能化应用,从多方数据中安全的提取和利用智能知识才是关键。最后是开放,一个体系框架的发展和落地应用需要大家广泛的参与。

知识联邦是一个开放的体系,智邦平台也是一个开放的平台,未来会逐渐开放出去,和大家合作共赢。

问:一个子模型被攻击,在模型联盟过程当中会造成怎样的安全风险?是否存在较完善的防御策略?

另外,如果其他参与方很多且数据量非常大的时候,一个参与方的模型被攻击,相对影响还是会有,但不会那么明显。

问:怎么分配利益?如何衡量各方的贡献?

李宏宇:智邦平台提供了联邦特征选择的方法,来保证用户数据质量,遴选那些对于整个模型精度有提升、有帮助的特征。模型精度提升的效果就是衡量贡献并进行利益分配的一个标准。贡献度评估方法其实有很多种,但在联邦应用中落地实施还需要进一步技术突破。

问:联邦学习或知识联盟是否只是大厂的机会?

李宏宇:倒不一定。联合建模也好,做联邦也好,这都是应用导向的。但现在最困难的一个问题是,怎样把这机构间多元异构数据给标准化和统一化,这才是最大的痛点,大厂也不一定能解决这个问题。

现在的关键是谁能把这个问题解决掉,其它建模或计算就都可以在这样的基础平台上去完成,并创造价值。各种企业都有机会。

问:准确性提升算谁的?

李宏宇:在整个联邦过程中,模型提升通常有一定的应用目的。通常会有一家模型需求方,用自有的数据训练出的准确度不高,但是如果引入其它联邦方的数据时,精度就会大大提升。这个时候准确性提升的功劳是谁的?这个问题显而易见,难的是如何量化这种贡献。

问:样本对齐和加密模型训练与对策,区别在哪里?

李宏宇:样本对齐是发生在模型联邦训练之前的一个工作,主要是寻找参与方之间的共同用户(交集)。样本对齐面临最多的问题是,参与方都不希望交集外的数据还被泄露出去。现在智邦平台做到已经达成了这个目标。

样本对齐要想做到充分安全,也就是交集内用户也不对外可见,还是有很大挑战的,这需要与训练过程结合在一起才能实现。

后台回复“知识联邦”,即可获得完整版《知识联邦白皮书》。

THE END
1.(casiahwdb)汉字识别数据集The online and offline Chinese handwriting databases, CASIA-OLHWDB and CASIA-HWDB, were built by the National Laboratory of Pattern Recognition (NLPR), Institute of Automation of Chinese Academy of Sciences (CASIA). The handwritten samples were produced by 1,020 writers using Anoto pen on papershttp://www.nlpr.ia.ac.cn/databases/handwriting/Home.html
2.keras+卷积神经网络HWDB手写汉字识别keras+卷积神经网络HWDB手写汉字识别 写在前面 HWDB手写汉字数据集来自于中科院自动化研究所,下载地址: http://www.nlpr.ia.ac.cn/databases/download/feature_data/HWDB1.1trn_gnt.zip http://www.nlpr.ia.ac.cn/databases/download/feature_data/HWDB1.1tst_gnt.ziphttps://blog.csdn.net/yql_617540298/article/details/82251994
3.celeba数据集CelebFaces Attributes Dataset (CelebA) is a large-scale face attributes dataset with more than 200K celebrity images, each with 40 attribute annotations. The images in this dataset cover large pose variations and background clutter. CelebA has large diversities, large quantities, and rich annotationshttp://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
4.手写汉字数据集(部分)手写汉字数据集(HWDB1.1),图片形式的各种汉字以经分别在各个文件夹内存储好。 手写汉字 数据集2018-09-05 上传大小:42.00MB 所需:43积分/C币 CNN卷积神经网络识别手写汉字MNIST数据集.zip 这是我修改的别人的代码,别人的代码有点问题,我修改了一下,代码的正确率很高,可达90%以上,这是一个5层卷积神经网络的代https://www.iteye.com/resource/qq_27280237-10648261
5.Gbase8a数据库安装与使用HWDB-1.1 手写汉字CNN识别模型训练 数据集 使用CASIA-HWDB1.1进行训练和测试,训练集和测试集按照4:1划分,测试集235200张,训练集940800张, 共计1,176,000张图像。该数据集由300个人手写而成,其中包含171个阿拉伯数字和特殊符号,3755类GB2312-80 level-1汉字。 http://www.nlpr.ia.ac.cn/databases/handwriting/https://www.pianshen.com/article/7084303285/
6.基于机器学习的方法实现手写数据集识别系统手写字体识别数据集下载HWDB1.1数据集: 1. $ wget http://www.nlpr.ia.ac.cn/databases/download/feature_data/HWDB1.1trn_gnt.zip 2. # zip解压没得说, 之后还要解压alz压缩文件 3. $ wget http://www.nlpr.ia.ac.cn/databases/download/feature_data/HWDB1.1tst_gnt.zip https://blog.51cto.com/u_16213702/8807334
7.使用python获取CASIA脱机和在线手写汉字库CASIA-HWDB CASIA-OLHWDB 在申请书中介绍了数据集的基本情况: >CASIA-HWDB和CASIA-OLHWDB数据库由中科院自动化研究所在 2007-2010 年间收集, 均各自包含 1,020 人书写的脱机(联机)手写中文单字样本和手写文本, 用 Anoto 笔在点阵纸上书写后扫描、分割得到。 https://www.imooc.com/article/40759
8.CASIAHWDB脱机手写汉字数据集以及申请表下载我真的找遍全网,总算是找到了这个数据集,现在分享给大家。共六个文件,分别是CASIA-HWDB1.0训练集和测试集、CASIA-HWDB1.1训练集和测试集、CASIA-Competition数据集还有一张申请表。不过我看大多数人都是把前四个文件合并起来当做训练集,用Competition那个做测试集的。【注:2019年春节期间数据集的官网打不开,现在https://www.jianshu.com/p/980e2528e8fe