知识图谱如何助力实现智能金融

2016年6月25日下午,由清华经管创业者加速器发起的人工智能线下沙龙的第二期交流活动正式开始,文因互联网创始人兼CEO、前三星研究员鲍捷博士,来自阿里云的高性能计算高级技术专家游亮,机器视觉创业者、深度学**方向的专家孙林,他们分别针对自身研究方向的具体应用技术,从知识图谱、高性能计算和机器学**的角度进行了经验分享,并就近年来人工智能的发展态势进行交流和分析,针对与会者提出的相关问题给出自己的想法,沙龙现场,大家时而就专业问题热情讨论,整个交流会俨然成为了一个互为人师的大课堂。


清华经管创业者加速器是一个体现清华精神,为全球优秀的创业者和团队成长服务的创业加速平台,人工智能领域的创业项目是加速器重点关注的细分领域 之一。通过资源的整合,清华经管创业者加速器将为该领域的优秀创业者和项目加速成长提供包括创业辅导、金融资源、网络资源等多方面的支持。目前,加速器 X+空间正在吸纳人工智能领域的创业团队。入驻请扫描文章底部二维码。


人工智能的应用技术分享人工智能系列沙龙第二期



分享人:鲍捷《知识图谱助力实现智能金融》



鲍捷博士已在人工智能领域知识图谱方向研究多年,他提出了几个在互联网金融方向国内相较于发达国家的弱势问题所在,并就这几点问题进行了分析。结合自身互联网金融优势提出从五个步骤来帮助企业做出价值判断和风险评估。此外,鲍博士还重点对如何处理数据的方式进行了介绍,这也是他多年技术研究的重点方向,即利用金融知识图谱来分析数据,进行云搜索,可以极大的提升投资者的效率和便捷性。


以下内容根据鲍捷现场分享实录及相关资料编辑整理。


什么是智能金融?

首先,我们需要澄清它和其他一些概念如金融科技、互联网金融的区别。


总的来说“传统”的金融科技更多是用IT手段去帮助交易完成。基于互联网技术,构造一个平台,让交易能够在一个平台上发生。所以第一代金融科技的公司,更多的是把传统金融业务搬到平台上来,以前完全要靠人打电话或者面对面地推,现在搬到网络上来做,这是比较早期的金融科技的公司。这一块目前还是最主要的,因为它的量很大,而且商业模式非常的清晰。但这个里面并没有太多的智能在里面,只是让一些工作的效率更高了。另外由于整个资源信息的汇集,以前是物理的,现在变成电子的,这样一来其实价值是非常非常大,所以金融科技也是目前投资的一个亮点。


智能金融也要和“互联网金融”区分开来。互联网金融是现在大家提到“金融科技”时最容易想到的,在国内几乎成了“P2P”的代名词。互联网金融关注的是把交易行为或者获客渠道搬到互联网上来,这里面会有一些智能的应用,但总的来说还是传统人力服务的互联网化,和“智能金融”差距还是很大的。


利用人工智能的方法,不仅仅是基于一些IT的东西来把传统用人来做的判断,能够用机器做一部分的决策支持,做一些以前人不能够去做的,这个叫做智能金融。


真正智能的判断是需要我们对于证券交易的各种金融实体,它背后的价值和它所承载的分析进行一个深度的分析,所以通常来说是很难仅仅用统计方法就能够完成的,不管是价格判断,还是风险评估,都需要我们对世界产生一个知识的模型。


智能金融现在中国市场上看到最多的是征信,和互联网金融的发展息息相关。个人征信可能有上千家在做。企业征信也在起步,最初步的是各种工商注册数据的处理。在美国,我接触较多的有两个领域,一个是传统大银行里的数据分析,另一个是交易策略的生成,类似桥水(Bridgewater)、Kensho 在做的。当然人工智能分支很多,其他的分支和金融的结合也有很多的应用。这些机构里的人工智能,我了解到的有限情况可以分为机器学**语义分析两大块。从算法层面不管是征信还是策略生成,或者信息挖掘,基本都可以映射到“语义数据集成”这个经典的老问题上去,进步一些的就是语义搜索。当然这个问题解决起来也不是那么简单,要机器学**、数据库、本体和知识库等多种方法的混合应用。


金融行业面临的两个问

就如何在国内展开智能金融的应用,我们接触了很多金融界人士,有风投、孵化器、券商、私募、银行、交易所、研究所、监管机构等等,涉及的问题有行业研究、企业研究、尽职调查、交易撮合、并购、投资顾问、理财顾问、个人征信、企业征信、风险控制、系统风险防范等等诸多领域。我们发现,尽管金融面临的具体问题千差万别,但总的来说,集中在“价值判断”“风险评估”这两个大问题上。


但是如何做价值判断和风险评估,就是仁者见仁,智者见智,没有一个统一的方法,甚至有时候看起来纯粹是“拍脑门”。但是这其实很有道理的。金融决策的特点是要考虑的因素实在是太多了。金融产品可能是最复杂的商品。一份股转书有两百多页,还有大量的年报、半年报、研究报告、公告、反馈意见、尽职调查结果……但很少有人是看了这几百页的材料再做决定的,往往就是凭经验和人脉,直接“变魔术”,做出决定。

机器能否解决问题?

人“变魔术”在未来是否有望变成机器“变魔术”?

我认为想让机器“变魔术”之前,要依次解决五个问题。是每一个问题的解决,都可以让我们更多地利用机器的力量,获得更智能的工具来做出价值判断和风险评估,从而解放人力,有更多的时间去做只有人才能获得的“洞察”。


1、从物理世界获得数字化的数据

大多数买方和卖方的数据,其实是很难被机器、甚至人去访问的。很多时候还是需要人面对面的交谈、亲临现场的访问,才能得到决策的依据。

关心投资的朋友都会知道法律规定所有上市公司都得定证券时报、中国证券报,为什么?因为所有的公告,上面都有一个印刷版在上面,我最近也定了,我看了以后哭笑不得,那是我见过的最小的字体,所以在上面大量的公告完全是没有办法去看的,只是走个形式而已,所以我就把它称之为“脏数据”,报纸上有这种“脏数据”,电子数据也有“脏数据”,40万份报告里面,有七八万份是扫描件,没法看。


2、从“脏数据”中获得“干净数据”

数字化数据中依然有大量的“脏数据”,例如新三板披露材料中有1/4 是扫描件,大量的公告是不规范的pdf 难以做文本处理,大量的财务数据用不规范的表格展示。至于网上千差万别的新闻数据、研究报告,就更“脏”。很多数据(如财务、股权结构、股东结构)隐藏在图片中,难以提取、统计、汇总、比较。XBRL 报表只解决一小部分问题,而且还没有对公众开放。


3、从数据中辨认金融“实体”

实体包括企业、投资机构、人(高管、股东、投资人、合伙人等等)、行业、产品、事件、案例、法规等等。数据不仅是一堆汉字和数字的组合,一次定增公告里会提到项目、产品、定增对象(人或者机构),供应商和收入来源里会提到上下游企业,投资人简历里会提到学历和以前的职务。这些实体和它们的属性往往很有价值。例如一家券商曾委托我们筛选股东里不含契约型基金的公司、在江浙地区的投资基金等等,这就需要我们不仅把股东、基金的名字看成字符串,而是理解它是什么样的机构、有那些地域属性、分类属性等。很多这些数据,分散在很多地方,如股转系统、工商网站、行业协会、机构官网。只有做好实体的识别,才能把这些信息串起来。

4、深入关系,形成“知识图谱”

金融决策需要的洞察,往往不是表面上一眼能看出来的。例如投资公司对企业的投资,往往通过各种子公司和“壳”来完成,仅仅依赖股东披露或工商注册信息(包括子公司、孙公司的工商信息)是不够的,需要一些规则和数据挖掘来发现隐藏得很深的关系。我们曾对一家投资公司做了个案研究,发现单纯从披露数据和工商数据,只能获得一半的投资事件,而通过深度规则挖掘,才能获得比较完整的投资组合。此外如行业对标关系,行业上下游关系、供应链关系、股权变更历史、定增与重大资产重组的关系、多张财务报表之间的数据交叉验证,都需要深入关联来自多个源头、多个时期、多个企业之间的数据关系。


5、是在知识图谱的基础上表达业务逻辑

挂牌、定增、并购、对冲、二级市场交易等等,每一个业务场景都会有自身的逻辑。我遇到很多研究员、投资总监,在学**Python、R、Matlab,因为他们痛感自己脑子里的逻辑,难以用文字或者Excel 表格表达出来,市场上也没有一个好用的工具帮助他们在数据的基础上,把被经验验证有效的业务逻辑清晰地表现出来,免得总是要做简单重复劳动。逻辑的表达可能是看数据的一些方式、处理数据的一些规则、展示数据的一些模板。一旦可以把逻辑数字化,其实一些比较初级的价值判断和风险评估就可以由机器来做了。


文因互联的图谱搜索功能一经推出就得到很多好评。金融行业的从业者或投资人,以前他们对这种行业的研究,只能在官方行业里面进行研究,现在可以在任何一个细分行业做,他以前只能够在桌面上坐在那里打开才能做,现在在路演现场里头打开手机就能做,尽管目前没有能够达到非常智能的高度,但他们体会到了前所未有的方便性,每一步的数据对于这些投资人都非常的有价值。不要眼睛总盯着变魔术这一件事情,变魔术过程中的每一个节点都是有价值的。这是我们花了半年时间才学到的一个事情。

中美行业技术发展对比



就金融领域的应用而言,我们认为美国领先中国很多。美国在各个层面都有相应的服务提供商,而中国仅仅在干净数据这些层面有了成熟的解决方案。在实体数据层面,中国还只是在一些局部刚刚开始(如一些行业数据库和工商信息服务商),美国七八年前就已经有了成熟的服务。再往上图谱数据和业务逻辑,中国还基本没有对应的服务者。不过也需要指出,业务逻辑和“魔术”的层面,美国金融领域的尝试也是初步的,现在还很难说已经走通了。所以总结来说,美国的成熟行业前沿在图谱数据这个层面,而中国在干净数据层面。

金融智能化的未来方向

现在有一个很时髦的名词叫智能投顾,也有一些公司在做。就我个人来看,我认为这个太早了,目前从技术上来讲不太可能,从业务上来讲也是非常有限的。我们不应该着眼于取代,而是着眼于如何去帮助用户。


当前中国的金融智能化,应该聚焦于基础数据的实体化和图谱化。今年3 月份我们邀请了很多金融界的人士参加“语义对话金融研讨会”,与会人士也表示,当前最需要的,不是让机器来代替人做判断,而是提供优质的、经过整理的知识图谱,让数据更可信、更好用、更容易被发现和获得。

如何提升数据质量

1、基础数据的可访问性

这是其他一切事情的基础。基础数据如果被封闭在部门的高墙里,或者封闭在Excel 表格里、pdf 文件里、专用的数据终端里,那就会不得不要很多很多的人去天天复制、粘贴,手工录入,进行这种高度浪费人力的工作。现在又是移动时代,人们在手机上经常需要做一些快速的轻量级的信息处理,传统的金融数据工具都太重了,可访问性不好。


提高可访问性的主要技术手段是把数据转化为“链接数据”,就是方便在Web 上访问和相互链接的数据。里面涉及爬虫、pdf 文本化、表格提取、图像OCR、文本清理等技术。也利用JSON/REST API 或者新一代的语义数据接口如RDF 和JSON-LD,提供不同应用之间跨平台的对接。


2、数据的可发现性

早期的一个误区,我们总是想给用户提供很多的数据,但是后来发现用户稀缺的不是数据,而是注意力,因为数据实在太多太多了,我们应该研究的是怎么让他提供更少的数据,你要知道用户需要什么,怎么从纷繁芜杂的数据里找到少数真正有价值的数据?怎么快速定位只是模模糊糊有点印象的数据?这些是后续分析的基础——因为金融分析一定是人和机器协作的过程,不是机器有个银弹算法就能搞定的,一定要提高对人友好的数据可发现性。


可发现性主要是利用语义搜索引擎和探索引擎。金融搜索引擎的背后核心技术是高质量的知识图谱和大量的业务规则,帮助实现联想、属性查找、短程关系发现。探索引擎,如分面浏览器,也是在知识图谱的基础上,则提供了人机协作的界面,让人对数据的探索过程可以很方便地被记录、迭代、重用。此外推荐系统和**系统也非常有用,帮助金融用户聚焦在关键数据上,更省时省力地做投前发现和投后跟踪。



3、数据的深度关系

找到那些人力根本看不出来的关系。人最多能看一两百个维度,机器可以看成千上万个维度。比如一个企业的重大风险提示和当前发生的新闻事件之间的关系,人力是很难监控和判断这么多企业的那么多相关动态的,机器可以帮助我们。


这一部分依赖的技术主要是各种自然语言理解的方法,特别是关系抽取。此外知识推理的方法也非常有用,通过推理规则可以发现隐藏得很深的关系。


4、领域知识的集成

金融涉及国民经济各个领域,官方分了一百多个领域,只是为了管理的方便,真正可用的领域大概有几百个。这些领域都或多或少需要集成领域的知识。不管是投资有色金属还是珠宝,领域的关键概念、产品分类、关键人物、市场竞争情况等等,都是需要梳理的。


这块用到的主要技术是领域知识库或“本体”(ontology)的构造和对齐,有文档结构分析、篇章分割、常用词和新词发现、中文分词、实体提取、实体消歧、实体链接、实体对齐、关系提取、本体学**、规则建立、本体映射等流程。另外常识知识库如Freebase、DBPedia、Wikidata 也是有用的。


5、金融业务知识的集成

并购、征信、融资、资管、对冲、二级市场交易等等,在每一个具体的业务场景上,都需要业务逻辑,然后在基础数据和领域知识的基础上表达这个逻辑。并购找壳有逻辑,股票日内交易预警有逻辑,这些逻辑要在数据之上表达为模型。需要一个系统来方便金融人士表达这些模型、重用这些模型、学**这些模型。


这一部分主要是用到知识建模和推理的技术。例如Palantir 提供了一个“本体编辑器”来帮助金融人士来表达他们对数据的理解,把数据探索的过程表达为可重用的模型。通常也会利用可视化来提高人们的工作效率。


6、策略的生成

机器辅助我们做出了价值判断、风险判断,通过过往的案例或者既定的逻辑,提供给我们可行的策略,或者策略的决策依赖点。不过目前不管是在中国还是在美国,没有哪一家企业真正能够把这件事情做到完全实用,一些Demo可以做到,但是真正能够在业务场景上面发挥价值,目前还是有一定的距离。


这个层面可以说是人工智能的集大成。从用户交互角度有意图理解、查询生成、自然语言生成、用户画像、记忆匹配等;从数据层面有與情分析、规则提取、知识库检索、推理机、查询分解和优化、多渠道证据收集和置信度分析等;从业务层面有财务模型、投资模型、风险模型、相关度建模、逻辑生成等。




未来展望


整个要把技术链条全部走通要花很多的时间,在国内至少也有两三千万人民币,才有可能做出一个初步可行的系统。很多中间步骤,我们是有价值的,如果我们把中间的实体数据做好了,不管是以**系统的方式,还是搜索系统的方式,以专业系统的方式来推出来,都是有价值的。


金融和所有其他领域一样,迟早要被互联网渗透,迟早要被人工智能渗透。现在我们靠经验、靠人脉来作出很多决策,不可能永远这样下去。经验、人脉,是我们在数据不足、分析能力低下的情况下不得不做的妥协。它们以后依然很重要,但是我们会越来越多地依靠机器的帮助。AlphaGo 能超越围棋人类冠军。金融辅助判断工具超过最优秀的投资人还比较困难,但是可以提供大量的辅助决策工具,让投资人在形成逻辑链条的过程中,更容易地获得数据和分析层面的支持,**提高工作效率。


在整个技术链条中,知识图谱居于核心的地位,可以说是金融报表电子化(以XBRL 为代表)以来又一次质的飞跃。知识图谱是金融数据分析从简单的量化模型走向更为复杂的价值判断和风险评估必经的一环,是把人的经验和人脉逐步变成可重用、可演化、可验证、可传播的知识模型的方法。在系统的构造中,知识图谱弥补原有数据库的不足,把机器学**、自然语言处理、深度学**这些知识提取方法,领域词表、分类树、词向量、本体这些知识表现方法,RDF数据库和图数据库这些知识存储方法,和语义搜索、问答系统、分面浏览器这些知识检索方法粘合在一起,提供金融智能化的工具集。


 我非常希望做金融的人能够更多了解技术所面临的困境,而不是画出来的大饼,因为在这之前,人工智能已经经历了两次冬天,就是因为外界对我们的期望值太高了,过了几年,他发现你们这帮人在吹牛,所以我们希望这次不要再发生这样的事情。虽然这是一个很遥远的未来才能够达到的目标,但是我相信这几年,如果我们能够想达到有限的目标,像图谱数据、云搜索,只要能够把它们组织在一起,是可以做一些对金融机构有用的事情。从目前初步的反馈看,这个目标在短期内是可以达到的,谢谢大家!


编辑&整理:骁潇汪赵中先生对本文亦有贡献
个人资料
snowice
等级:-2147483644
文章:4篇
访问:4.2k
排名: 34
推荐圈子
上一篇: 知识图谱在金融行业的应用展望
猜你感兴趣的圈子:
互联网+金融
标签: 金融、图谱、投资、知识、人工智能、面试题
隐藏