ARPA x 京东数科:隐私计算如何赋能未来金融数据共享

链得得
链得得

May 26, 2020 链得得官方账号

该文章已上链

摘要: 目前安全多方计算、联邦学习等隐私计算技术逐步走向成熟,在涉及用户隐私数据的金融、医疗、政务等领域中,让机构间的数据合作成为可能。而隐私计算与区块链技术的结合,既能保证输入数据可信,亦可隐藏运算过程,可谓鱼和熊掌可以兼得。

ARPA x 京东数科:隐私计算如何赋能未来金融数据共享
00:00
19:41

数据是现代商业与个人的核心价值与重要资产。数据正在重新塑造人类生活的方方面面,IDC Research统计2019年大数据和分析市场的销售收入约为1870亿美元。跨机构、跨行业的数据融合、联合分析和建模的需求日趋增加。但由于数据本身可复制,易传播,一经分享无法追踪,数据资产的确权困难,商业化被严重制约。

数据隐私监管日益加强,中央出台了《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据纳入生产要素。2019年下半年,监管部门则密集出台了《数据安全管理办法》、《App违法违规收集使用个人信息行为认定方法》、《个人金融信息(数据)保护试行办法》等多项征求意见稿及草案。同时,监管部门彻查了大量买卖个人数据黑产的“大数据公司”,我国的数据行业势必将走向规范。

针对数据共享面临的问题,隐私计算技术可为业界提供新思路,赋能数据确权并实现数据”可用但不可见”。参与数据分析的各方,互相看不到数据,但是可以共同做分析甚至训练模型,将最终结果发送给数据付费方,即可从技术上杜绝数据泄漏的风险。目前安全多方计算、联邦学习等隐私计算技术逐步走向成熟,在涉及用户隐私数据的金融、医疗、政务等领域中,让机构间的数据合作成为可能。而隐私计算与区块链技术的结合,既能保证输入数据可信,亦可隐藏运算过程,可谓鱼和熊掌可以兼得。

本文根据隐私计算初创公司ARPA联合创始人兼CEO 徐茂桐5月22日在京东数科智管有方平台直播分享整理。

曹弋-京东数科:欢迎徐总来到京东数科的智管有方平台,和大家做关于隐私计算赋能金融数据共享的分享。《大咖视界》是京东的一档直播分享栏目,旨在邀请金融领域的大咖,以及京东数科生态合作伙伴,与我们的金融机构客户碰撞新的ideas。

京东数字科技创立于京东集团内部,前身为京东金融,于2013年10月开始独立运营。截至2018年底,京东数字科技已累计服务涵盖4亿个人用户、800万线上线下小微企业、700多家各类金融机构、17000家创业创新公司、数十座城市的政府和公共服务机构。资管事业部于2015年底起步于结构金融业务,其中资管科技板块定位为以客户为中心,打造覆盖多市场、多产品、多客户,提供融金融与科技服务于一体的领先资管科技平台。

徐茂桐-ARPA:谢谢各位。大家好,我叫徐茂桐,ARPA联合创始人 & CEO,纽约大学斯特恩商学院信息技术与金融双学位,曾于复星集团旗下的早期基金复星锐正资本覆盖金融科技、AI大数据等行业,并独立负责区块链领域的研究与早期投资,此前曾任职于纽约Sackler Family Office, Vertical Research Partners等投资机构。

ARPA致力于用安全多方计算和区块链解决数据安全共享问题,成为分布式商业中的数据交换基础设施。ARPA目前的核心产品为基于安全多方计算的隐私计算平台(Secure Computation Platform),赋能企业间高价值数据的安全查询、联合分析与模型训练,可使用于可使用于金融联合风控、黑名单查询、跨部门数据协同等众多场景,让数据可用但不可见。团队成员曾就职于谷歌、 亚马逊、华为、复星、清华国家密码重点实验室等领先机构。ARPA与中国信息通信研究院共同制定安全多方计算标准,并参与制定IEEE国际标准。落地方面,与多个500强企业有概念验证和早期产品。ARPA被中国企业报和中国软件行业协会评为2019年度中国十大创新区块链企业之一。

曹弋-京东数科:您能否谈谈对数据行业的看法,以及隐私计算未来对数据行业可能产生的改变?

徐茂桐-ARPA:众所周知数据是信息时代的重要资产,我个人认为数据行业有三个发展阶段。目前主要集中对企业内部数据的收集、整理、分析。比如ERP、SaaS、数据中台等系统以及IoT设备数据的采集,将企业数据做汇总和分析。这是过去20年的大机会,未来将持续很长一段时间。

下一个大趋势是企业间数据流转。数据的融合与交叉使⽤用可提⾼其价值,但是归集数据进⾏分析的方式面临数据泄漏的风险。同时针对个⼈隐私数据的使⽤,欧盟GDPR、美国CCPA的以及我国的监管愈加严厉。从去年开始,大数据行业逐渐规范,买卖个人数据的行为有所减少。隐私计算可以合规的、在保护个⼈人和公司隐私的同时提取数据价值,是未来⼗年的不可逆的趋势。全球领先的科技研究机构Gartner认为隐私计算处于爆发初期,主要的驱动力是隐私监管,目前的渗透率底,潜在市场机会大。

徐茂桐-ARPA:下面我来简单介绍下安全多方计算。

安全多方计算, 英文叫Secure Multi-Party Computation, 简称MPC。别名有安全计算(Secure Computation)和隐私保护计算(Privacy-Preserving Computation)。安全多方计算是当今密码学的一个重要分支,是继成熟解决数据加密存储、传输之后的重要尝试,在密文数据上直接构建运算。

具体而言,安全多方计算由 n 个互相不信任的参与方进行,联合对一个协商确定的函数进行计算,能够保证参与方的隐私输入数据 x1,x2,···,xn 无法被其他参与方获得。

姚期智院士(Andrew C.Yao)于1982 年发表的文章“ Protocols for Secure Computation”首次提出姚氏百万富翁问题和安全多方计算的概念。这个有趣的问题是,两个百万富翁希望知道谁更富有,但是不希望对方或第三方知道自己的财富值。

此后 Goldreich,Micali 和 Widgerson 等密码学家将这个问题一般化成为现在的安全多方计算问题。此后该领域内学术研究和商业应用蓬勃发展,如今安全多方计算协议是多种密码协议的组合,如同态加密、零知识证明、秘密分享等。近10年来,密码学界对安全多方计算的探索有了长足的发展,我们在实践中发现一些特定协议的计算效率已经达到商用程度。与区块链类似,安全多方计算同样存在“不可能三角”,需要在安全性,通用性,计算效率这三点之间权衡。工业界,包括ARPA,会根据不同场景优化协议使之满足商业需求。

曹弋-京东数科:安全多方计算的技术成熟度如何,是否已经有场景可以大规模推广?

徐茂桐-ARPA:隐私计算正在逐步被应用于金融和保险风控、OTC交易、资产管理、互联网营销等领域。同时作为一项前沿技术,隐私计算的从业者在积极推动技术的标准化工作。2019年6月,工信部直属单位中国信息通信研究院正式发布《基于安全多方计算的数据流通产品技术要求与测试方法》行业标准,ARPA、阿里巴巴、蚂蚁金服、百度等企业参与制定。国际上,IEEE安全多方计算国际标准的制定和MPC Alliance企业联盟的建立也预示着隐私计算从学术界向工业界的拓展。我接下来分享几个值得探索的隐私计算应用场景。

金融、保险黑名单安全查询

黑名单主要用于记录个人或企业客户的不良行为。每个机构都会维护多种业务的黑名单,从小型商业公司到跨国机构,从金融交易到信用记录。机构之间的黑名单共享和查询有助于帮助机构规避风险,如多头借贷、多头骗保等,然而对于黑名单的明文共享既危害用户隐私也泄露商业机密。利用隐私计算进行的黑名单查询可以在保护隐私的情况下降低机构风险。这类计算需要对比两组列表并找出其中重合的部分,这个过程应能保证参与方无法获得除结果外的信息,并可以规避被查询方获得查询条件。

营销转化率计算

转化率计算这类数据共享问题即“隐私交集问题”。两家公司分别持有自己业务范围内活跃用户数据集,一方拥有与第一个活动相关的用户列表,例如在互联网上查看广告的用户,另一方拥有在第二个活动中进行过交易的用户列表,例如购买过广告商品的用户,以及与每个用户关联的数值(比如该用户的支出)。其中一方希望了解他们共有的用户数量以及相关数值的总和,而并不希望分享更多的数据。例如,广告主希望知道“三十岁一下的男性消费总和是多少”,可以通过隐私计算在不共享数据和查询条件的情况下获得交集,计算转化率等指标。

多维度风控模型

目前信贷风控需要通过多个数据源采集数据,进行决策树、逻辑回归、随机森林等运算。从2019年下半年开始,国家对非法采集贩卖个人隐私数据的大数据公司进行了整顿,原始数据愈加难以获得。隐私计算可以合规的链接同业和异业公司,组成数据联盟,在各方输入数据不泄露前提下进行分布式模型推断或者训练,有效降低多头信贷、欺诈等风险。同时风控模型的参数在计算中亦不会暴露,保护了模型提供方的知识产权。

曹弋-京东数科:京东数科于2019年7月正式向市场推出资管科技品牌JT2智管有方2.0。智管有方2.0的架构就包括共识与加密。此前ARPA与京东数科这边也有过联合PoC的尝试,您可以讲一下具体案例么?

徐茂桐-ARPA:京东数科的资管科技平台可以为金融机构客户提供多种类型的金融模型,用于定价、风控等领域。其中较为常见的是Value at Risk模型(VaR),金融机构可以利用VaR模型测算股票、债券的整体持仓风险。金融机构希望对持仓数据保密,而金融科技公司的模型参数亦需要保密。ARPA的隐私计算解决方案可以为双方搭建安全API,部署在双方的服务器上。金融机构的持仓数据和科技公司的模型参数都以密文形式输入,进行安全多方计算,最终输出的VaR值给到金融机构。此外,我们了解到金融风控领域,金融机构在查询外部黑名单时,往往不希望暴露“自己查了谁”这个信息,因为这样会暴露客户信息。隐私计算同样可应用于安全查询的场景。

曹弋-京东数科:目前安全多方计算支持怎样规模的数据计算?

徐:当今使用的安全多方计算技术按底层技术分为两个分支,基于混淆电路(Garbled Circuit)的与基于秘密分享(Secret Sharing)。混淆电路与不经意传输(Oblivious Transfer)为姚期智院士提出的安全计算技术路径。简单来讲,基于混淆电路的协议更适用于两方逻辑运算,通讯轮数固定,但是拓展性稍差。另一类基于秘密分享的安全多方计算中,数据输入和计算中间值都会以“密文分片”的方式存在。秘密分享技术可以把隐私数据切割为2份或更多份后,将随机分片分发给计算参与方,这个过程保护了数据隐私又允许多方联合对数据进行计算。之后,就可以利用分片间存在的同态计算性质来实现在分片上计算并重建得到隐私数据计算结果。基于秘密分享的安全多方计算目前主要由欧洲密码学界主导,如Smart, Damgard等密码学家,其拓展性较强,理论上支持无限多方参与计算,计算效率高,但通讯负载较大。目前ARPA最多做过100方的安全多方计算压力测试。

曹弋-京东数科:您的方案中提到“所有参与⽅方发出的均为密⽂文数据,整个运算过程不不泄露露任何原始数据”,数据模型构建在哪方服务器上?

徐:数据模型会在数据和模型提供方的双方或者多方服务器上,通过安全API进行安全计算,运算过程的数据均为密文,也不会有第三方参与,不存在数据泄漏的可能性。

曹弋-京东数科:安全多方计算需要各方有哪些硬件支持?部署是否复杂

徐:现阶段MPC功能以软件解决方案为主,以具体应用为导向,提供定制化的解决方案。将高频需求打包成SDK或安全计算平台的API。部署相对简单,可以利用企业现有的服务器或云计算资源,加装ARPA MPC节点。ARPA的安全多方计算解决方案包括6个专用解决方案(黑名单查询,营销转化率计算,线性回归,风险价值模型,手写数字识别,门限签名)和1个通用MPC计算平台。

我们采用的MPC协议池包括多种密码学算法,因应用场景不同,按照计算任务构造MPC协议,已应用过的密码算法包括:1)用于构造隐私求交集的加法同态,不经意传输; 2)用于构造通用MPC计算的部分同态加密,秘密分享,Beaver电路随机化,信息论安全的信息校验算法; 3)用于有限轮数通信的MPC计算的混淆电路; 4)用于门限签名算法的秘密分享转换算法;5)用于防止恶意攻击而作为安全保证的零知识证明,Pederson与Hash承诺函数;6)用于节点通信的传输层安全通信算法。

  

 曹弋-京东数科:您对隐私计算 / 安全多方计算的前景是什么看法呢?

徐:如果说信息时代是大厦,建立在数据的地基上,那么隐私计算即为这座大厦的电梯。我认为隐私计算目前在我国的仍处于萌芽阶段,可以预见的是随着国家对隐私数据监管的加强,企业于个人对自身数据价值重视程度的提高,隐私计算将在2020-2030年实现爆炸式增长,甚至有望从零发展到数据共享的技术基础设施。目前隐私计算行业既有蚂蚁金服、百度、微众银行等大企业,也有ARPA、华控清交等具有技术实力的创业企业,以及中国信息通信研究院、央行等国家研究机构。未来发展如何,让我们拭目以待!

链得得仅提供相关信息展示,不构成任何投资建议
本文系作者 链得得 授权链得得发表,并经链得得编辑,转载请注明出处、作者和本文链接

更多精彩内容,关注链得得微信号(ID:ChainDD),或者下载链得得App

分享到:

相关推荐

    评论(0

    Oh! no

    您是否确认要删除该条评论吗?

    分享到微信