9月24日至26日,由中国金融认证中心(CFCA)、中国电子银行联合宣传年、中国电子银行网主办,中国银联重庆分公司协办的“2020中国数字金融生态论坛”在重庆举行。论坛涵盖夜话、主题演讲、知名科技企业走访等丰富内容,一百多家银行及金融科技企业高管、学术专家齐聚山城,论道银行数字金融生态发展新“基”遇。
活动期间,瑞莱智慧RealAI联合创始人刘荔园就“金融业数字化转型”的话题接受了中国电子银行网、中国银行保险报、和讯网的联合采访。
采访中,刘荔园对第三代人工智能的特点及其在金融科技领域的具体应用作了介绍。具体在银行业务方面,她结合营销、安全、风控回捞等应用与记者做了深入交流。
在谈到AI如果破局金融科技时,她指出,过往数据价值被过于注重,但其实现阶段,算法跟数据同等重要,两者相爱相生。与此同时,伴随线上化、智能化、数字化做得越好,场景数据的积累变得更加容易,智能化信息存储的速度也在飞速增长,这些都进一步助推了人工智能在金融科技领域的决策落地。
她还认为,人工智能在金融科技领域落地,难在“破圈”,难在让技术和金融业务达成互融互通。而第三代人工智能通过对算法层和协议层的布局,则很好地解决这个难点。
记者:RealAI跟清华人工智能研究院之间是什么关系?金融科技应用主要体现在哪些方面?
刘荔园:RealAI来自清华人工智能研究院的核心孵化企业,主要围绕第三代人工智能去做产业界的应用,现在落地比较多的领域是金融、安全还有工业。
记者:您作为一名AI行业的资深从业者,您觉得后疫情时代下,AI将会走进怎样的方向?这会给金融行业带来怎样的变化?科技赋能金融的背景下,是否会出现新的范式?
刘荔园:在我看来,疫情对于AI应用起到了加速器的作用,它带来的催化效应十分明显,不仅对原有的,以感知、认知为主的AI应用做了进一步的催化,还加速了决策层人工智能的发展进度。
一方面,疫情期间很多银行在信息化布局上做了更深的推进,线上化、数字化工具的需求呈现爆发式增长。
我们知道之前的很多场景由于没有数据,所以很难做到智慧决策,但随着疫情期间信息化布局做的越来越好,很多场景的数据积累和智能化信息存储的速度在飞速地增长,这也意味着人工智能做决策的土壤变的更肥沃了。
近年来很多银行成立金融科技子公司,一般的信息化服务已经非常成熟,这对于决策导向的人工智能公司是绝对利好。只要数据基础搭建得足够完善,接下来就是花样玩转大数据,进而可以做更精准的决策,这种变化将推动整个业态加速智能化转型。
另一方面,疫情其实对人工智能的应用效果也提出了更高的要求,比如理财的资金保有量规模预估这一场景,这类预测工作碰到疫情等异常情况,如果算法不够鲁棒将会有难以承受的误差。在这样的流动性风险预测场景,一旦预估出现偏差,带来的风险也更大。
可以说在宏观环境的冲击下,决策层的需求比以往更严苛、也更迫切,比如风控模型的稳定性问题。现有的一些模型在出现疫情或者其他黑天鹅事件的情况下很容易翻车,其实是因为没有达到真正投产应用的要求。所以某种意义上疫情也是“试金石”,以往很多朴素的算法或者方法在疫情之下就显示出局限性,他们无法进行稳健的输出,甚至会给决策带来更大的风险。
如果有更安全、可靠、稳定、易懂的新方法,不管是做营销,还是信贷或流动性的风控模型,它能给客户带来巨大实际价值,也即效果增益从业务角度“算得来账”,这其实也应该是AI金融落地迈入成熟阶段的自我标尺。另个角度说,在数据化工具越来越标准的当下,数据不再是科技公司的核心壁垒,新的方法与技术路径成为新的突破口。
记者:RealAI(瑞莱智慧)在金融领域的布局目前是怎样的?
刘荔园:整理来看,我们其实在做两件事。
第一个是算法层的突破,打造安全、可靠、可解释的AI。这三个属性的结合才可能是优越的方法,和决策价值紧密结合。
比如可解释,如果某个应用完全是黑盒,不可解释,随便来一个冲击,就会产生偏移,就会给出一个错误的结果。张钹院士之前的多篇演讲中也提到了什么是假AI,什么是真正的AI。
在之前深度学习备受青睐的阶段,数据价值变的熠熠闪光,大家都似乎更注重数据,但到了现在,算法变的同数据一样重要,两者是相爱相生的。
我们提的“第三代人工智能”不仅仅追求算法层的颠覆突破,与此同时,也最大化的尊重业务经验和知识,让两者做一个紧密的握手,共同去实现更大的价值。
第二个是协议层的布局。做决策之前,我们需要用更好的方法打通数据,这个过程中,受保护的、可用不可见的数据交互非常重要。因为数据太敏感了,任何一方,包括银行和数据源的数据,可能会涉及到出库传输、隐私泄露等问题。诚然数据资产非常宝贵,但要想“富”得先修“路”。
针对“修路”问题,我们基于隐私保护计算推出了RealSecure机器学习平台,它能够在数据源跟数据使用方之间都以节点的方式进行部署,类似于基建级的高速公路。通过这些节点,我们可以安全的使用数据,保证数据安全地发挥它的价值。
为什么说我们做的隐私保护安全计算可以下沉到协议层?核心在更底层把算法模块做了编译框架级重构,因而可以一键适配更广泛的算法,这就是我们所谓的隐私保护安全计算领域的“活字印刷术”。而市场上已存在的相应技术均为对不同算法进行逐个安全加密改写,例如逻辑回归和xgboost,面对浩渺的计算库,这样的方法犹如雕版印刷术,无法穷尽。
记者:举例说明一下具体是怎么落地的,效果如何?
刘荔园:算法层的安全、可靠、可解释,在业界来看的确比较抽象,所以提到落地,就需要谈一点关于“破圈”的工作,主要是算法和应用紧密结合的一些例子,比如风控回捞,基于半监督学习的回捞算法,可以从拒绝客群中挖掘被误拒的优质客户,实现零成本获客,扩大资产规模。
具体说来,在银行的信贷业务中,原来的通过率非常低,但如果有了风控回捞,银行可以通过算法从那些被误拒的客户中找回一些优质客群,这也就需要去跟银行的业务做紧密融合,并且在业务上做互联互通和破圈。
我们可以看到,单纯业务去主导的,或者技术去主导的,都没有特别成功的案例。大家都以自身的方法论为本位思考,其实很难解决这个需要极大创新的场景,我们看到金融科技领域某种意义被称呼为红海或者呈现疲态,也侧面说明大家对真正的突破点的渴求状态。其实是需要双方互融,更深入地认知彼此,跨学科的能力更强,而这恰恰是金融科技真正落地破圈最艰难的地方。
在“回捞”的领域,研究算法的人员在充分了解业务场景之后,往往第一步要做的工作是纠偏。他在通过半监督做了纠偏算法之后,才能发现原有被拒的客户中哪些是纠偏过来之后的优质客户。这里,他需要对业务有深入的了解,从业务转化到技术,然后发现问题,最后才是攻坚技术问题的环节。这个时候,我们再让业务人员去看,其呈现的效果就很直接,解决什么问题、效果是什么、赚了多少钱、减少了多少坏账等等都是一目了然的。这就是一个非常成功的破圈应用。
记者:现在这个应用是在银行用得比较多,大行用得多,还是中小银行用得多?相比较而言,谁用得更好一些?
刘荔园:两者侧重各有不同。头部银行与我们合作之前就对“回捞”做了很丰富的尝试,包括一些“玄学”的方法,比如一些拒绝推断的方法。
头部城商行在这方面的探索工作比较少,但需求依旧很强烈。所以,一般而言,他们和我们合作的状态是我们端对端输出。
至于一些更深入的算法合作,则可以通过联合实验室来进行。比如纠偏,通常而言,只需要做一个纠偏模型就可以了,但如果你希望这个模型在某些参数上做更多优化,这就需要提升到联合实验室的联合共创层面。
记者:除了纠偏,第三代AI还给金融业务带来哪些新的突破?
刘荔园:其实,纠偏只是可靠性中的一点。总体上,可靠性可以分为三个层面,绝大多数业内的机构只认识到或者只使用了第一层稳定性。
第一层稳定性是抗过拟合。我们在应用数据模型的时候,往往会希望它的泛化性比较强。但即便如此大部分模型在使用3个月之后就会有一定偏移,需要进行调优。
第二层是宏观因素变化的稳定性。即,模型在宏观因素产生变化时也能继续保持稳定。以前的做法是,一旦有数据因子变化带来冲击,模型就需要进行一次调整。
第三层稳定性是极端冲击下的稳定。比如,模型在遭遇黑客攻击后还能保证稳健的输出。比如,人脸攻防的部分。极端情况下,一副经过AI特殊生成的“眼镜”(此处指对抗样本技术)就可以解锁手机的人脸识别系统,但即使是如此,模型也可以用稳定性更强的方法去弥补。
稳定性在其他的领域也有相关的应用。比如,贝叶斯概率机器学习可以对所有预测的结果做一个概率或可信程度的评估。举一个具体的例子,我们在预估不同时间截面的资金保有量时,以前的预测是10亿,这个数据有90%的可信度,但在疫情下,我们发现它变成了50%的可信度,这就是对宏观风险的捕捉。
原有的输出大多只有整体概率,但在金融场景下,我们对单个决策的可靠性要求也会非常高,比如流动性预测的潜在风险会比较大,对稳定性的需求也更高一些。
其实,现在很多基于人脸识别的身份认证也存在很高的安全风险。比如某平台的人脸识别就因为安全的原因已经被改掉了。而在此之前,要破解是很简单的,破解者只要戴上定制眼镜就刷进去了。
记者:具体是怎么做到的?
刘荔园:人脸识别其实是分两部分,一个是活体,一个是比对。我们主要是让攻击者通过佩戴一副带有噪点信息的眼镜,对输入数据进行修改,从而让比对算法失灵。这种方法甚至可以实现定向攻击,比如把张三定向错误识别成李四。所以,本质上来看,我们现在用的AI算法都不安全。理论上,只要你用到深度学习,都会存在这样的漏洞,而且在开源技术的影响下,这类漏洞的攻击门槛正变得越来越低。
记者:上面您提到,目前有推出了一款隐私保护学习平台,可以展开介绍下这个平台吗?
刘荔园:这个平台主要功能是在做好隐私保护的前提下把数据资产做大,并让数据流转起来,发挥出数据的价值。
我们都知道,一些互联网大厂很厉害,厉害在哪里呢?是他们的数据资产足够大,可以基于这些数据资产做各种各样的画像分析,进而帮助决策者做好决策指引。
但这一切的前提数据是要脱敏的、安全的,然后才是互通的,只有这样才能做到真正实现数据流转,价值呈现。
比如,在信用卡业务场景中,基于我们的隐私保护机器学习平台连接某政府平台和银行,在居民数据和银行数据都不出库的情况下,通过部署节点和算法参数流转实现结果输出,以达到客户属性判断的目标。
记者:优势具体表现在哪些方面?其差异化特点是什么?您可以展开讲一下吗?
刘荔园:这里我可以打一个形象的比喻,如果说传统平台是“雕版印刷”的话,RealSecure就是“活字印刷”。
普通计算算子,加密/多方安全算子,通信算子这三大类算子就相当于一个个不同的“活字”,这些算子的差异化组合就支持到了不同业务场景的需求。其他多方安全计算的解决方案是“雕版印刷”,无法解构到“活字”层面。我们可以更灵活支持到更多场景的计算需求,并且像一本字典一样,公开每个活字和活字的组合方式,也即算子的执行流程和协议的组合方式,把多方安全计算做到白盒。
这其实也侧面说明了AI领域的技术门槛是很高的,带来的效应也应该是基建层的,我们只有对人工智能算法有非常深入的了解,才能解构到协议层,也才能做到对编译层或者协议层的定义。