a型血人的性格 2017年11月8日,海致大数据与《金融电子化》联合主办了主题为“AI赋能商业银行-知识图谱与智能金融”的 2017首届智能金融知识图谱论坛。本文源自海致金融业务副总裁杨娟在会上的分享。 人工智能演进的速度远超过所有人的想象,围棋这个人类智慧最后的堡垒,已经被人工智能快速攻破了。AlphaGo Zero的成功预示着没有样本的非监督学习获得了历史性的突破,预示着AI在行业的应用即将迎来不可限量的发展规模和速度,也许是我们现在无法想象的爆发点,但我们正站在这个爆发点的前夜。 世界是由物元、事元、关系元组成。这三个基本的维度互相交织,不断变动。我们从时间和空间的不同维度去观察它们,捕捉它们,进而了解它们的运行,预测它们未来的发展变化,然后采取我们的最优行动。 AI的本质是什么? AI的本质是要让机器替人做决策,做行动。机器在做决策之前,首先要理解世界,诠释世界,之后才能改变世界。 知识图谱将物元、事元、关系元清晰的展现出来,是人类认知世界的基本框架。我们将人类认知世界的模型传递给机器,让机器也能够像人一样理解世界,之后再去做决策,做行动。 例如乐视事件,据不完全统计,包括乐视网在内的乐视体系近几年融资额(直接融资+间接融资)高达728.59亿元,然而不断地依赖融资为债务输血。在交易方面,2016年乐视系交易额中有44%是关联交易,即有44%的营业额其实是发生在乐视系以及其相关企业之间。 从机器的角度来判断该事件,这已经符合了一切高风险特征,即实际控制人在不断套现,不停占用新的融资债务;交易、营业额当中有将近一半是关联交易。如果是机器来做决策的话,结果显而易见。而人在做决策时可能受到感性因素的影响,所以在聚光灯下万众瞩目的企业,依然骗了很多人。 每一家商业银行至少有几千家对公客户,上万甚至十万以上的小微企业客户,十万、百万,甚至上亿的个人客户,对于这么多数量的客户,我们怎么样防范风险、挖掘价值呢?这已然不是人力能够覆盖的事情,却正是知识图谱、人工智能能够发挥价值的地方。 有专家曾经表示,知识图谱是人工智能的基石。如同人工智能历经了多年的发展起伏,知识图谱的发展也不是一蹴而就的。 20世纪70年代,知识图谱的前身专家系统诞生,它积累了大量的某个领域专家水平的知识与经验,根据知识和经验,模拟人类专家的决策; 1998年语义网诞生了,它是NLP(自然语言处理)的前身,不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以使交流变得更有效率和价值; 2016年8月,海致帮助招商银行总行建立国内首个金融知识图谱平台;而后,又陆续帮助银行、青岛银行、南京银行、长沙银行等商业银行建立金融知识图谱平台。 可见这是一个加速发展的过程,金融知识图谱将会成为商业银行的标配,用于防控风险、精准营销,也将成为FinTech、监管金融当中的中坚力量。 从百度中文知识图谱转向金融知识图谱,是海致进入知识图谱领域的转折点。这是从通用知识图谱到行业知识图谱进行的过程,它的顶层基础是相通的,都是海量数据处理、语义识别、复杂关系的建立、机器学习和算法进行标签化的提取以及更复杂的模型;但它们之间也有一些不同之处,这也是海致在构建金融知识图谱的过程中取得核心竞争力的地方,即面向特定的业务领域,基于行业知识构建知识图谱,以知识的深度而非广度取胜。 海致专注向金融产业进行垂直化的深度研发,以知识图谱技术为底层,挖掘风险与营销信息的产生与传导、打造风控与营销模型、探索人工智能与机器学习的实践场景,推出海致金融知识图谱1.0平台。该平台是一个模块的组合,可以灵活的进行拆分与对接,并且是式的框架,能够和现有的金融机构大数据框架、开源技术进行对接和整合。作为业界首个行业知识图谱平台,海致金融知识图谱1.0将能够帮助银行更好地迈向智能金融。 海致智能金融知识图谱1.0的总体框架分成三层,底层是海致核心的技术引擎,包括自然语言处理、图分析与图挖掘、机器学习。在这三个引擎之上,融合了互联网的数据,金融机构内部的数据,第三方合作的数据,以及业务积累。在与银行业务进行结合之后,海致形成了三个重要的智力资产,即海致金融语料库、海致金融算法库、海致金融标签库。在核心资产之上,海致形成了四类知识图谱,反欺诈知识图谱、风险管理知识图谱、智能营销知识图谱、反洗钱知识图谱。这四类知识图谱支撑着不同的业务系统,如金融机构已有的CRM系统、信贷管理系统、风险预警系统、反欺诈系统、反洗钱系统、移动营销系统,甚至OA系统等。 也就是说,海致智能金融知识图谱1.0既可以成为一个知识管理的平台,也可以无缝融合行业已有的业务系统、业务流程,最大限度地接入到日常工作场景中。 海致智能金融知识图谱十二大功能简介(1)企业股权关系、一致行动人、实际控制人等挖掘企业股权关系查询能够查询任一企业与关联企业之间的投资关系,在此基础上进行了企业股权关系、一致行动人、实际控制人等的挖掘。(2)任意两企业之间关联关系查询20个以内的企业可以进行秒级反馈,查询出企业间的最短的关联径。(3)圈、链、群挖掘链、圈、群是信贷工作中需要密切关注的业务场景。过去由于计算技术以及模型的局限,信贷工作主要靠人力操作或者通过实时程序编写进行查询。现在通过图挖掘和图分析算法,可以进行实时、深度的圈、链、群挖掘,并且智能地推送给相应的责任人。(4)企业集团、企业派系挖掘企业派系非常的复杂,有时会涉及到几百甚至上千企业。企业派系以及企业集团关系的深度挖掘,是银行进行风险管理、贷后预警中的重要武器。(5)企业传导分析企业传导分析是通过银行已有的种子库、企业,或者个人,找出和其相关联的可能涉黑或者涉灰的企业和个人,同时根据关系亲疏程度和重要程度,以及量化指标,评估出关联企业或个人的涉黑概率。(6)授信集中度指标分析授信集中度指标分析是银行在授信审批环节中评估现已发放的贷款的集中程度。对于银行来说,一般授信集中度有一个上限,越过上限或者即将到达上限需要提前发出预警。(7)疑似欺诈交易发现及欺诈团伙追踪发现反欺诈领域特点之一是数据量非常之大,通常是企业场景的几何级倍数;另外,对于实时性要求也非常高,一旦发现是可疑交易,就必须快速发出信号阻断交易。海致在银行知识图谱二期项目上就进行了类似的重点部署,通过大数据以及实时性欺诈检测,帮助零售金融部以及电子银行部等进行风险防范。(8)风险事件库与风险事件智能推送海致构建了风险事件库,以及内嵌风险事件智能推测规则。(9)标签库标签最早是用在电商行业,用来识别不同消费者的偏好,进行消费者画像的构建。如今海致把标签的贯彻在了银行对公业务领域,用标签的方式标识企业、企业主以及企业的领导。标签分为不同的层次:基础标签、业务规则标签、智能标签。基础标签包括生命周期、贡献度、交易行为等;业务规则标签包含营收增长、累计利润、贷款评级等;智能标签包括风险、营销、派系、供应链等。通过标签化的方式,银行能够最大程度把数据、信息知识化、智能化,成直接的业务决策和行动。(10)语料库因为构建知识图谱的数据中,部分来源于互联网数据,部分来源于企业的财报、年报、舆情等,也可能来自于行内的尽调报告、拜访记录、群众意见等,大多结构化的文本数据。对这些数据进行提取,一方面需要良好的基础技术,另一方面需要在建立语料库方面有丰富的积累。海致目前在语料库有通用类的基础语料,有和信贷报告类、研究报告类、制度类、日常营销以及互联网相关类的语料,同时也在不断丰富和完善中。(11)词法分析海致正在和银行进行授信文本解析这项工作,它用机器的方式自动解读文本,提取关键要素用来做自动化、监管、审计,实现了大幅的效率和风险控制上的提升。(12)算法库算法库分为基础平台、通用算法、金融算法三个层次。基础平台包含图算法、机器学习算法等;在此基础之上的通用算法包含社区检测、关键节点分析、关联度分析、特殊结构发现、逻辑回归等。海致专注于金融知识图谱领域,所以在通用算法之上结合业务逻辑、业务理解和业务以及在业务的实践、体验,积累了相关金融算法,包括客户忠诚度、客户贡献度、实际控制人、一致行动人、集系、客户风险评估、违约概率传导、行业风险、授信集中度、营销价值评估、传导等。在实践当中,算法库有在金融机构之间一致通用性,再根据每家金融机构不同的情况进行微调和配置。知识图谱助力金融机构拥抱AI金融知识图谱的核心技术包括自然语言处理、图分析和图挖掘、机器学习以及领域理解。大数据、人工智能时代有很多数据来源,大多结构化的。未来我们可能也会把音频、视频这些数据都纳入到金融知识图谱数据源当中,自然语言处理技术是银行提升效率与智能水平的关键技术之一;基于关系和基于图的分析和挖掘常新兴的领域,它的应用正呈现出旺盛的增长趋势;机器学习,无处不在,在自然语言处理中,语料的训练需要用到深度学习模型;在图分析和图挖掘中,最短径等算法都是机器学习的范畴;还有最重要的是领域的理解,知识图谱技术与金融业务在实践中进行结合的深入程度,决定着智能金融发展进程的快慢。海致作为中国金融知识图谱开创者,是目前国内拥有银行客户案例数最多的金融知识图谱大数据公司。通过在与客户合作的过程中,积累了深刻的领域理解与技术经验,致力帮助金融机构拥抱金融科技,拥抱人工智能,寻求变化,追求创新。 本文由来源于财鼎国际(http://cdgw.hengpunai.cn:27531/) |