啥子是隐私计算 隐私计算原理
各位老铁们,大家好,今天由我来为大家分享什么是隐私计算,看这篇文章你就能了解,以及的相关问题知识,希望对大家有所帮助。如果可以帮助到大家,还望关注收藏下本站,您的支持是我们最大的动力,谢谢大家了哈,下面我们开始吧!
对保密的需求可以追溯到公元前1500 年左右的美索不达米亚。当时,人们主要使用笔和纸,或者简单的机械辅助工具来进行加密。
密码棒——是一种早期的加密工具[1]
这个阶段一般称为经典密码学,或者经典密码学。
古典密码学
“
凯撒密码[2]
其中比较有特色的是以凯撒密码为代表的转置加密。这种类型的密码通常很容易被破解。以维吉尼亚密码为代表的多表替换密码的出现,大大降低了频率分析和攻击的风险。
凯撒密码在一次加密中的偏移量都是一样的,比如A-D、B-E,偏移量固定为3,而维吉尼亚密码的偏移量需要查表确定。
例如,纯文本为:ATTACKATDOWN
密钥由重复的单词组成,例如LEMON
钥匙看起来像这样:LEMONLEMONLE
对于整个加密过程,明文中的第一个字母A对应于密钥中的第一个字母L。然后检查L行A列,得到密文L;第二个字母T 对应于密钥中的第二个字母E。然后检查E行T列,得到密文X;第三个字母T对应密钥的第三个字母M,然后检查M行的T列,得到密文F,以此类推。
我们可以得到密文:LXFOPVEFRNHR
近代密码学
进入20世纪,复杂的机械和电机被发明,更有效、更复杂的加密方法出现。
最具代表性的就是图灵率先破解的恩尼格玛密码机。
恩尼格玛密码机[3]
Enigma的核心原理仍然是万用表替代,但在机械的帮助下,这个过程是半自动化的,效率更高。
而且,在三个转子的组合下,不同的方向、不同的相对位置、改变连接板上字母的顺序等等,总共有一千亿种可能(没错,就是一千亿种)。
在图灵破译Enigma之前,Rejewski首次将严格的数学方法应用到密码破译领域。他带领的三位波兰英雄破解了大量德国密码,成为图灵伟大成就的基础。
现代密码学
1840年代,现代信息学之父香农的《密码学数学理论》被认为开启了现代密码学时代。
在香农的维基百科条目中,我还发现他和图灵有一个梦想的联系。
”
1943年,香农有机会与英国数学家和密码学家艾伦·图灵合作。图灵被派往华盛顿与美国海军沟通破译德国北大西洋潜艇舰队密码的结果,并在贝尔实验室呆了一段时间。香农和图灵在一家自助餐厅见面。图灵向香农介绍了现在被称为“通用图灵机”的概念。香农对此很感兴趣,因为图灵机的概念与香农自己的许多想法相符。
后来,香农证明了一次性密码本是牢不可破的。香农还证明了一个牢不可破的密码系统的密钥必须具有以下特征:完全随机;不能重复使用;秘密;只要是明文。 [4]
1976年Diffie和Hellman提出的公钥密码学思想是现代密码学的里程碑。两人还因提出公钥密码学的思想而获得了2015年图灵奖。
公钥密码学也是非对称密码学。在此之前,加密和解密总是使用相同的密钥(即对称加密)。
对称加密的问题是,一旦私钥暴露,密文就不再安全。在假设的场景中,如果A 和B 想要加密一段文本,则密钥必须通过不安全的通道传输。
当然,私钥可以通过Diffie-Hellman密钥交换协议进行交换(是的,也是上面两人发明的),但是仍然有可能被中间人攻击获取秘密钥匙。
非对称加密可以传输公钥,在密钥传输过程中更加安全。但由于算法较为复杂,计算效率低于对称加密。
随着非对称加密的基础,现代密码学开始迅速发展。
1982年,姚期智院士提出了著名的百万富翁问题,开创了密码学的一个新分支——多方安全计算。
多方安全计算
亿万富翁爱丽丝和鲍勃想知道谁更富有,但不想透露他们的具体资产。他们应该做什么?
这就是百万富翁问题。一般来说,最好的解决办法是通过无意传输。
不经意的转移
我和张三打牌,但我的牌技不好,总是输。为了让游戏更加公平,我可以看张三的牌的大小,但我不想让张三知道我在看哪张牌。不然他有选择地打出那张牌,我还是会输。
这时候我们就可以用无意传送的方法来达到我看到一张牌,但张三不知道我在看哪张牌的效果。
实际中往往简化为1-2次无意传输,即发送方向接收方发送了2条消息,接收方只得到了其中一条,但发送方并不知道接收方得到的是哪一条。
假设Alice有两个密文m0和m1(两张卡),Bob想获得其中一张。
Alice生成两个RSA公钥和私钥对,并将两个公钥p0和p1发送给Bob; Bob生成一个随机数,并用p0或p1(如果想要m0就用p0,如果想要m1就用p1)对随机数进行加密,并将密文结果发送给Alice; Alice使用p0和p1对应的私钥分别对密文进行解密,得到两个结果k0和k1。请注意,其中一个是Bob 的真实随机数,另一个不是,但Alice 不知道哪一个。得到k0和k1后,用k0和m0进行异或,用k1和m1进行异或,得到e0、e1,发送给Bob; Bob使用之前生成的随机数分别对e0和e1进行异或,其中一个是Alice的密文,另一个是无意义的随机数。 [5] 有点复杂?继续阅读:我们假设Bob想要的是m0,他用p0加密随机数x得到p0(x)。
Alice用p0的私钥解锁这个数字得到x,然后与m0异或得到e0=m0x,再将另一个随机数与m1异或的结果发送给Bob。
Bob得到了e0和e1,并将它们与他之前的随机数x进行异或,xe0=x m0 x=m0,所以他得到了m0。
那么我们如何利用无意传播来解决百万富翁问题呢?
在这里,数据播放器将简化问题。假设两人的资产都是数十亿级别,但不会超过十亿。
Alice拿了10个相同的盒子,按照1到10的顺序排列,但无法标记它们,代表1到10亿。她根据自己的资产大小将黑桃、红心和方块的扑克牌放入其中(扑克牌全部使用A)。
如果方块数量小于您自己的资产规模,则放置黑桃,如果相等,则放置红桃,如果方块数量大于您的资产规模,则放置方块。
锁上所有十个盒子并将它们交给鲍勃;
根据他的资产大小,鲍勃选择其中一个盒子并添加自己的锁,并销毁其他盒子。
最后,鲍勃将双锁盒子归还给爱丽丝。
爱丽丝拿到了盒子,但不知道是哪个盒子,因为盒子上没有号码。
两人分别打开锁,查看里面扑克牌的花色。如果是黑桃,则意味着爱丽丝更富有。如果它们是红心,如果它们是相等的,如果它们是相等的钻石,那么鲍勃就更富有。 [6]
当然,两个人的资产规模不可能是整数。如果完全相等的话,他们可以比较数千万的资产,只要重复上述过程。
这样,通过无意的传输,我们实现了多方安全计算,即数据的可用性是不可见的。
隐私计算发展现状
隐私计算到底是什么
隐私计算是多种技术的统称。目的是让多个数据拥有者能够在不暴露数据本身的情况下共享、互操作、计算和建模数据,最终产生超出自己数据的价值,同时保证数据不泄露给其他方。
一张图看懂隐私计算发展[7]
隐私计算是一个复杂的技术体系,包含硬件、密码学、分布式机器学习等多种底层技术。
目前基本共识是隐私计算包括三大技术路线,即:可行执行环境TEE、多方安全计算MPC、联邦学习FL。
隐私计算技术栈[8]
隐私计算赛道为何突然火热?
核心是数字经济的发展,数据要素重要性的确立,以及数据基础设施、数据法律法规、数据交易生态不完善之间的矛盾。
原因是数据拥有者不能、不敢、不愿意给出数据。
不能给
政府机关、医院、中小金融机构的基础设施还不够完善,信息化尚未完成,业务尚未数字化,数据积累还不够。
即使已经有一些数据,它也分布在不同的部门并存储在不同的基础设施中。手工账本和Excel并存,更不用说数据治理、规范、标准、数据集成和数据服务了。
近年来,在多种因素的综合作用下,目前的情况有所好转。
不敢付出
基础设施到位后,迎来越来越严格的合规和监管,个人隐私保护等法律法规的逐步完善,也让原本以明文形式传输个人隐私数据的商业模式逐渐变得越来越多。野蛮。它不再起作用了。
如何给予才顺从,如何索取才顺从,太多的负面案例让大家都有些胆怯,宁愿少做,也不愿犯错。
隐私计算是一剂良药,让每个人都敢于分享和交易数据。
不愿意付出
别说是其他机构,就算是一些金融机构内部,不同部门之间的数据打通也需要花费很大的功夫。
隐私计算的核心。能力在于让数据变得可用和不可见,让数据不动、模型不动。
希望各方能够在不离开本地数据库的情况下完成数据交互、碰撞和建模。
因此,在数据基础设施逐渐完善、每个人都无法泄露的前提下,隐私计算保护了传输数据的私密性,解决了无人敢分享的困境。另一方面,用数据保护所有组织的资产安全。打消大家不愿放弃的顾虑,是考虑到当前数字经济发展和隐私保护的最佳解决方案。
隐私计算发展痛点
产品和技术不够成熟
产品涉及到很多技术栈,使得整个产品形态非常复杂。考虑到隐私计算的实际应用场景,可能需要部署在防火墙、私有云或DMZ区域内。存在跨网络交互并且涉及防火墙。策略等复杂的部署方案使得整个产品的实施和交付变得更加复杂,尚未形成相对标准的产品套件。
此外,由于密码算法的大量使用,导致多方安全计算的性能降低。例如,生成RSA密钥对通常涉及大整数的素数分解,这需要大量的计算。
据信通院测试,40万行样本900列特征的纵向联邦学习建模比纯文本慢几十甚至上百倍,而且随着规模的增大,这个倍数还会增加。
隐私计算存在性能瓶颈[9]
另外,隐私计算中有很多假设大家都认为是理所当然的,并且认为这些假设一定是正确的。
例如,联邦学习假设梯度无法推断出有用的信息。然而,这个假设很难被证明。事实上,反例已经出现:梯度会泄露训练数据吗?麻省理工学院的新方法只需几个步骤即可从梯度中窃取训练数据。
即使无法推断出原始数据,一些具有统计意义的数据岂不是会对数据所有者造成损害吗?例如,总交易额、客户总数、客户性别比例……
一个更致命的假设是,在隐私计算中,我们通常假设所有节点都是“半诚实”的。即虽然大家都有机会获得对方泄露的数据,但仍然遵守协议。 [10]
然而,在实践中,当相关技术逐渐被大家掌握时,所有节点还能保持“半诚实”吗?如果人人都是恶意节点,人人都“投毒”(掺入假数据),隐私计算还靠谱吗?
客户接受程度低
由于产品原理过于复杂,很难向客户解释清楚。最困难的是如何自我认证。
设计出复杂的解决方案后,如何证明隐私计算平台没有获得客户的明文,或者至少无法还原或推断出有用的信息?
即使向客户解释清楚,客户也无法向主管解释清楚。
监管真的认可这种方案吗?项目完成后,将产生多少收入,能否覆盖监管成本?毕竟该项目上线后,肯定会引起监管部门的关注。每三天就要进行一次监督现场检查,无数的材料、报告、解释……没有一个组织愿意承担。
还有,真的不能“用力过猛”吗?以金融业为例。如果大家都完成了“断网”,所有数据源都从合规出口访问,那还有必要再套上隐私计算的外壳吗?
另外,即使大家都接受,仍然会对原有的业务流程产生较大的改造,并对绩效产生潜在的影响。
原有流程下,企业内部数据和外部数据整合后,通过特征工程在决策引擎中完成模型处理并输出结果。
在隐私计算解决方案下,企业内部数据需要先进行加密,输入到隐私计算产品中,然后与外部数据进行计算。最终结果通过决策引擎输出,返回业务系统继续后续流程。 [11]
这个过程涉及多个系统改造、多个部门的参与。是否会影响其他业务或产品,是否涉及整体架构的改变,是否涉及网络架构的调整,性能能否满足秒级反馈,这些都是未知数。
尚未形成完整解决方案
数据安全需要端到端全流程保护。从客户授权、采集、加工、融合、应用的整个流程都需要受到保护。如果隐私计算技术只应用在某个环节,其他环节仍然以明文方式进行沟通,起不到实质性的效果。
目前的隐私计算解决方案大多聚焦于数据融合环节,针对不同数据所有者的数据,并保证融合过程中数据可用且不可见。但他们很少涉及其他环节,也缺乏相应的解决方案。
很多客户对隐私保护非常着急,但缺乏一揽子解决方案,包括客户授权协议、数据存储、数据生命周期管理、数据权限控制等。如果缺乏相应的解决方案,客户还是很难下定决心。
另外,行业内的数据源尚未打通,导致项目需要两方甚至三方从头开始,设计方案、联调测试等。
如果与某个数据源形成合作方案,就会面临另一个问题,那就是不同的隐私计算产品无法互操作,导致形成新的孤岛。
展望未来
尽管存在诸多问题,隐私计算仍是大势所趋。
针对以上痛点,隐私计算行业目前也在积极应对和调整。
多种技术路线融合,异构平台互通
三种技术路线各有千秋。 MPC应用场景最广泛。隐藏查询、私密交集、无意识传输等技术广泛应用于多种场景。但由于各种加密算法的复杂性,性能存在瓶颈; FL 最常用于联合建模场景。但当往往需要梯度交换、同态加密等手段来增强安全性时; TEE交付模式太重,软硬件结合的交付模式还需要探索。
事实上,在私有计算项目中,多种技术的结合也很常见。例如,在垂直联邦学习场景中,双方通常需要通过私有交集来构建交集结果;在一些计算效率过低的场景下,往往需要硬件加速卡来提高性能,这也迫使MPC供应商研究软硬件一体化的解决方案。
事实上,我们也可以看到,很多大厂商已经开始推出隐私计算一体机。因为基于硬件的TEE可以不冲突地连接MPC和FL,并且会提高两者的性能。
另外,当多个私有计算平台互联时,肯定会遇到底层开放的问题。软硬件一体化的方案肯定会更加强大,并且需要其他方兼容自己的硬件系统。
互联也是隐私计算中不可避免的话题。由于不同平台上的协议和标准不兼容,打通数据孤岛的努力导致了新的孤岛的形成。
解决互连问题,最大的难点在于用谁的标准来互连,或者说用什么标准来互连,这取决于行业标准的建立。
行业标准加速建立
加快行业标准制定[12]
中立的第三方机构和联盟积极推动各类行业标准的建立,如信息通信研究院、北京金融科技产业联盟等。
符合标准的产品相当于获得了权威机构的认证,可以降低市场认知成本,加快产品交付速度。同时,同一标准的产品也可以互连。反过来,也会促使行业主体努力遵守标准、完成认证,从而以更加规范、规范的方式促进行业的健康发展。
相信随着标准的不断完善和生态的逐步繁荣,隐私计算的未来不可限量。
参考资料
[1]
密码学的历史: https://zh.wikipedia.org/wiki/%E5%AF%86%E7%A0%81%E5%AD%A6%E5%8E%86%E5%8F%B2
[2]
凯撒密码: https://zh.wikipedia.org/wiki/%E5%87%B1%E6%92%92%E5%AF%86%E7%A2%BC
[3]
密码学发展简史: https://github.com/guoshijian/cryptography/blob/master/history/README.md
[4]
克劳德·香农: https://zh.wikipedia.org/wiki/%E5%85%8B%E5%8A%B3%E5%BE%B7%C2%B7%E9%A6%99%E5%86%9C
[5]
【联邦学习之旅】04 无意传输、秘密共享、密钥交换与差分隐私: https://wdxtub.com/flt/flt-04/2020/12/03/
[6]
百万富翁问题简单解释: https://www.jianshu.com/p/5a220e95cee2
[7]
一张图看懂隐私计算的发展: http://hqsxw.net/202107194407.html
[8]
2021 年世界人工智能大会|一方建树张林涛:隐私与安全计算如何助力构建数据与计算互联网: https://www.sohu.com/a/480974753_129720
[9]
信息通信研究院发布2021年隐私计算行业观察: https://www.secrss.com/articles/37491
[10]
探索|联邦学习概念解析及金融应用思考: https://mp.weixin.qq.com/s/wj24yoqlO94ThXzEodPNJg
[11]
对民营计算企业发展金融业的意见和建议: https://mp.weixin.qq.com/s/rmeHCQUUsVIrbgE2w-6mGA
[12]