
2017年被称为中国金融科技的元年,这两年来,以人工智能为代表的新技术对金融业产生越来越重要的影响 , 人工智能不是一个新名词,在历史的长河里,它从人们曾忘却的暗流慢慢汇聚成今天的大江大河 。自然语言处理作为人工智能的支流,也随着它的发展浪潮逐渐展现它的潜能 。这次浪潮如此之大,让全球的金融行业都感受到它的湿意,虽然人工智能不能全部替代人工,自然语言处理也不能完全认知这个复杂的世界,但是它的发展之势势不可挡,作为金融行业从业者应该提前预判未来,早做投入,才能在未来金融科技的“军备竞赛”中有足够的弹药储备,立于不败之地甚至引领行业发展 。
凡是过往,皆为序章 。只有了解人工智能的过去,才能更好地畅想未来 。人工智能的历史源远流长,这是人类自古以来的梦想 。梦想很重要,因为许多伟大的事业都源于梦想,没有梦想哪来的奋斗热情 。大约在公元前900年西周时期 , 中国的能工巧匠偃师就研制出了能歌善舞的伶人,这是中国最早记载的机器人 。春秋后期,中国著名的木匠鲁班,在机械方面也是一位发明家,据《墨经》记载,鲁班曾制造过一只木鸟,能在空中飞行“三日不下” 。
不过人工智能线年 , 英国数学家、计算机之父艾伦图灵在他的一篇《理想计算机》的论文中,就提出了著名的“图灵机模型”,1945年他进一步论述了电子数字计算机设计思想 , 1950年他又在《机器会思考吗?》一文中提出著名的“图灵测试”——一个人在不接触对方的情况下,通过一种特殊的方式,和对方进行一系列的问答 。如果在相当长时间内,他无法根据这些问题判断对方是人还是计算机,那么就可以认为这个计算机具有同人相当的智力,即这台计算机是智能的 。这一测试的本质是让人类测试机器是不是智能的,自此“人机大战”成了人工智能的试金石,在人工智能的发展史中一幕幕地上演 。
而“人工智能”一词线年Dartmouth的会议上,由四位图灵奖得主、信息论创始人和一位诺贝尔奖得主一起将人工智能的名词定义出来,包括明斯基、西蒙、麦卡塞等等 , 这次会议被公认为人工智能研究的出生典礼 。
第一次是发明了神经网络感知机,看起来很像人的神经 , 却不能模拟稍微一点复杂的问题,所以很快进入第一次低潮 。
第二次浪潮是伴随着计算机的兴起,1997年,IBM的深蓝在决定胜负的第六个回合中,只用了22步便迫使卡斯帕罗夫投子认负——这是棋王职业生涯里最快的失利,让全世界人类对人工智能的追捧达到了一定的高峰,但是这时候发明的BP神经网络或者其他网络最大的问题是,数据量少,深度不够 , 解决不了太多问题,因此2000年左右又破灭了 。
这时候自然语言处理的发展也同步被提升,怎么把一个词语表示成一组数学符号,并联系上下文,这是一个问题,2013年谷歌提出的word2vec就是一个非常大的进步,现在很多人还在用这个词向量模型,让NLP真正激荡出令人期待的火花 。接着2014年seq2seq , 可以解决中英文翻译的问题,谷歌的NMT模型超越了以往所有语言模型的效果,这导致国内有道、金山词霸、搜狗翻译都用了NMT模型,而抛弃了以前基于统计的SMT模型 。2017年的Elmo,2018年的Bert模型被认为开启了NLP新时代,2019年2月的Gpt2模型,因为太强大担心被坏人破坏为由,只公开了部分模型 。OpenAI 训练了一个大型无监督语言模型,能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现 。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要 。微软亚洲研究院和哈工大都先后发表文章,NLP引来了黄金发展时期,正赶上科创板元年,NLP技术和中国版“纳斯达克”邂逅,未来将点燃人工智能的熊熊大火,人工智能、自然语言处理领域的创业变成了风口,也成为了未来几十年中国产业结构化调整,转型中高端的动能之一 。
任何事情都有泡沫 , 但持续积累需要板凳要做十年冷的精神,神经网络从一出生到几次浪潮,后来成为冷门又成为大热门,这个过程让人感触,就在刚过去的北京时间3月27日晚 , ACM(计算机协会)宣布把 2018 年度图灵奖颁给了深度学习“三巨头”Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun,以表彰他们在深度学习神经网络上的工作 。全世界都欠着三个人的奖项,三十年的坚持,历经漫漫长夜 , 他们的信念改变了自己的命运,也推动了人工智能新浪潮的发展 。
2017年算是金融科技的正式元年 , 这两三年,金融科技创业公司如雨后春笋,例如做金融数据搜索的香侬科技,做公告结构化的鼎复科技 , pdf图表检测和复原的庖丁科技,阿博茨、文因互联、阡寻科技等等,至少五六十家相关的公司 。
智能投研方向到底该怎么做?我们的理解是深度结合业务,平台化的基础架构,优化算法,不断持续积累数据、系统开发经验,形成自己的金融科技“护城河” 。许多公司可能没有业务支撑,做的产品往往都是一厢情愿,带有一定的理想主义虚幻色彩,而不是真正领会市场和投资需求之后,深度融合业务思想再落地生根的 。
美国在自然语言处理结合投资研究领域率先进行探索 , 也基本想成了头部玩家掌握更多资源、拥有知名度和话语权的局面,例如明星公司Kensho,试图构建全世界最大的国际事件数据库及知识图谱模型 , 来解决当今投资分析的“速度、规模、自动化”三大挑战问题 。Kensho的主打产品,叫“Warren”,可以通过扫描超过9万项全球事件,如药物审批、经济报告、货币政策等几乎地球上所有金融资产影响的事件,立即找到6500万个问题组合的答案 。用户只需要在简单的文本框里输入非常复杂的问题——使用直白的英语 。例如:当飓风袭击福罗里达州时,哪支水泥股的涨幅会最大?(最大的赢家是谁?德州工业[Texas Industries]) 。同样,当朝鲜试射导弹时夫妻情感语录,哪支国防股会涨得最多?(雷神公司[Raytheon]、美国通用动力公司[General Dynamics]、和洛克希德马丁公司[Lockheed Martin]) 。当苹果公司发布新iPad时,哪家苹果公司的供应商股价上涨幅度会最大?(为iPad内置摄像头生产传感器的豪威科技股份有限公司[OmniVision]) 。
另外Kensho也发布了复杂的知识图谱产品“Visallo” , 能够从海量的大数据中发现公司、组织、人物之间隐藏的关系,再和它的事件检测、事件影响分析系统联合在一起 , Kensho构建了一个强大的量化投研体系 。
2000年,贝莱德的创始人拉里芬克(Larry Fink)组建了贝莱德解决方案公司(BlackRock Solutions),并开发出了一个被称作“阿拉丁”(Aladdin)的风险管理系统 。目前该系统已整合为一体化的投资交易风控平台 , 叫做“阿拉丁平台”(Aladdin Platform) 。
Aladdin的大型数据管理中心位于美国的华盛顿州,据称有上万台计算机,24小时运行,上面跑着数十亿个经济场景的预测 , 并根据这些预测,检查客户投资组合中的每一项资产,对投资组合进行诊断 。这些机器日复一日地记录和存储着历史事件,包括利率和汇率的变动、恶劣的天气灾难,丑闻等,再通过蒙特卡洛模拟,建立统计模型,计算它们对其管理的资产所存在的潜在影响 。
Aladdin的强大在于它这个平台管理的资产规模在2017年据传已经超过了15万亿美金,全球225万亿美元金融总资产的7% 。另外看网上说贝莱德的Aladdin业务在全球范围内的用户数量已增加至 25000位,可以想象,其背后管理的资产规模目前会是何等的庞大 。
大家都知道百度、谷歌搜索引擎,可以在全网搜索自己想要的内容 , 但是它不是针对金融的,所以在搜索的过程中会有很多无用的、和金融无关的信息,而且金融中需要的许多文件、数据,一般都在相应的专业网站上才能发布,和广义的通用的搜索引擎还是很不一样 。
AlphaSense就是在这种需求的背景下应运而生,它可以实时抓取,并能搜索合同、募股说明书、新闻舆情、研究报告、金融类风险管理函、政府数据网站 , 将html、pdf等文件进行结构化,并将高级语言搜索和自然语言处理算法融合,对这些文件信息进行语义分析并提取,例如可以输入某家公司,就可以搜索到实时的、历史的新闻,相应的研究报告、宏观研究数据等等,可以极大地提升效率 , 解决了金融信息丰富度和碎片化的问题,并且第一时间监控某个关键词或某个公司的情况,降低风险 。目前国内也在做类似搜索引擎的公司有香侬科技、阿博茨、IBData、虎博科技等 。
2013年4月23日,拥有190万粉丝的美联社“推特”账号发出一条快讯:“突发新闻:白宫发生两起爆炸,贝拉克·奥巴马受伤” 。虽然事后被证实是假新闻,4月23日收盘时,道指涨152.29点,至14719.46点,涨幅1.05% 。但伤害已经造成,利用所谓“算法”进行交易的交易员已采取了抛售行为 。
在扫描到包括“推特”和Facebook等社交网站发布的新闻信息之后,这些“算法”会自动执行买卖股票的指令 。这个事件再度揭露了由电脑推动的高频交易对冲基金的影响 。
前文我们介绍了自然语言处理在国内外投资领域应用的现状,本节将重点介绍自然语言处理在我们内部的实施路线
对于私募客户,可能不一定非常关心超额收益,但是一定会关心风险控制能力 。投资交易因为涉及到多因子,舆情作为因子之一,其有效性还需要继续探讨 。
在讲爬虫的过程中为什么会聚焦于“极速”?因为对于风险监控来说 , 风险事件感知的越早,那么在风险来临的时候就会更加从容,在投资领域也一样,进展获得相关消息,就可以及时采取措施而使得相关利益最大化 。例如最近的天嘉宜化工爆炸事件,怎样在第一时间知道这条信息?我们认为:爬虫一定要快、全面 。基于爬取的最新新闻,通过自然语言处理技术,比如通过关键词、公司名、人物名做定向监控 , 并及时应用于决策 。
事实上,网站的数据更新还是比较慢,因为要经过人工编辑、审核、发布,所以我们考虑接入新浪微博实时数据来扩充数据源 。
抓取到各种新闻数据后,还需要和行业、个股关联到一起 , 并通过机器学习、深度学习做情感分类、事件标签等 。
在业务层面,研究者会关注上市公司董监高近期的舆情变化,这里面就会涉及新闻中包含公司、人物的提?。?同时对于提取出来的公司和人物,进一步分析其公开讲话,了解其关注的业务重心,以及描述他们这些主体的情感面,包括这些新闻的热度变化情况 。
一般情况下 , 在公司没有发生任何事件时,其热度及新闻报道量是很平稳的、稀疏的甚至没有 , 但是一旦有事件发生,公司的新闻热度就会增加,如果事件严重程度较大,新闻热度就会激增 。这时候就需要我们具备及时获取信息的能力 。能不能在这个事件的热度发酵到高峰之前获悉?在这里我们构建了一个热度异常的算法,能够在热度曲线突然变化时报警 。
技术思路主要是以滑动时间窗来划分时间周期,计算某个公司主体在每个周期内的新闻热度比(这个公司主体在当前计算周期t内被报道次数占所有公司报道次数的百分比) , 并对比上一个周期得到新闻热度比的变化率,综合计算,得到变化的幅度值c,一旦超过c值就认为热度异常增加 , 进行报警,并且在这时通过句法分析,语义分析自动提取出发生的热点事件 。
一般情况下,都会通过标题 正文来做文本分类的方式给新闻、公告打标签,这种情况下,由于文本长短不一,正文可能要做文本截断 。这就会导致部分信息缺失,可见其局限性 。为了详细描述新闻里面的信息,我们将其进行分解,例如一篇新闻可能是通篇讲新能源 , 情感面是趋向于正面的,但是里面可能会提到一句“乐视汽车”,那“乐视汽车”周边几句话是负面的理智与情感人物介绍,要做面向评价对象主体的、句子级别的情感面分析 。意思是乐视汽车,提到情感面是负面的,而通篇文章认为还是正面的 。
截至目前,综合历史新闻资讯数据 , 我们整理了一千多类事件标签,同时事件标签都有重要等级程度,收集到每条数据之后,就会自动获取对应包含的事件,同时根据事件的重要程度决定是否需要报警,如需报警则会立马启动 。但目前来看 , 这些整理出来的事件还不够全面,需要持续迭代更新 。
美国Kensho建立的民用领域最大的非结构化地缘和全球自然事件数据库,并用纳斯达克集团的云计算平台FinQloud进行数据存储 , 以保证数据安全 。
对于金融投资领域的数据源,除了新闻,公告也占了较大的比重 , 通过将所有年报公告(91类公告)分别进行结构化处理,首先将公告分类 , 然后解析公告内容、还原公告目录,在历史公告库中,可以随意搜索公告数据 。
基于上面讲到的数据源:新闻和公告,在经过标签体系结构化处理之后,就可以借助知识图谱做一系列的事情 。比如:天嘉宜化工厂爆炸死亡xx人 , 这个事件严重程度比较高 , 从图谱的角度来看夫妻情感语录,这个公司可能影响到谁?其产业链上下游是哪些公司?其董监高是谁?和它类似的公司都有哪些?
但很可惜,金融知识图谱一般都是通过工商关系关联的,拥有了工商数据,相关知识从哪里获?。炕故悄锰旒我嘶の?。从工商数据角度上看 , 其和其他公司似乎没有什么关联 。但实际通过网络搜索,我们还是能够获取一些和它有关联的公司,甚至是其历史报道,这个时候就要考验我们在知识图谱中的关系补充能力 。
公告、募股说明书里面披露的供应商关系、客户关系数据,舆情里提取出共现的关系数据等 , 都可以用来补充企业关联关系数据 。为了提高关系补充是效率,可以尝试自动化提取产业链上下游 。比如:通过句法分析,通过deepdive框架并加以远程监督,来提取上下游企业关系数据,当然还需要人为地添加和Review 。
可见金融文档结构化,是支撑金融数据化研究和运营的关键技术 。例如:分析财报数据用于投资分析,审查审阅合同、募股说明书等 。在投行部门有许多募股说明书需要复核,就可以通过STR技术来获取相关表格,数字指标并自动审核,这样就可以自动化做一些工作提升效率 , 也避免一些可能的错误 。像Wind、财汇等金融数据生产公司 , 传统的方式是通过人工制定大量规则来达到预期90%的准确率 。而现在随着机器学习、深度学习的发展,借助这些新型技术能够大量节约成本,高效达到预期的同时能够支持更多的场景 。目前Wind、通联数据也在已有的技术基础上向自然语言处理、深度学习的方向转变 。而自然语言处理技术的出现带来了一套全新的规则,要改变、适应、演变甚至成熟还是一个较大的挑战 。
传统的基于图像处理的技术,存在适应性差 , 需要大规模调参的问题 。近些年随着深度学习技术的发展 , 基于深度学习的目标检测技术发展迅速 。出现了如R-CNN,Faster-RCNN,YOLO,SSD等目标检测模型 。深度学习的目标检测具有适应性强,学习能力强等特点 。YOLO、SSD等基于Look Once思想的模型在基本保证准确性的前提下 , 大幅提升了处理性能 。而基于darknet的YOLOv3模型,依赖少,训练部署简便 。从处理性能 , 部署便利性综合评估,选择了YOLOv3模型作为表格检测的核心模型 。
EAST模型的Pipeline直接预测图像中任意方向和矩形形状的文本或文本行,通过单个神经网络消除不必要的中间步骤(例如候选聚合和单词分割) 。EAST有三个重要的特点:
(1) 提出了一个由两阶段组成的场景文本检测方法:FCN阶段和NMS阶段 。FCN直接生成文本区域,不包括冗余和耗时的中间步骤 。(2) 该pipeline可灵活生成单字级或行级文本预测,其几何形状可为旋转框或矩形 。(3) 算法在准确性和速度上有较明显的性能优势 。
完成字符提取之后,就可以根据字符的位置关系和连通性,补充连接,最终能够提取出连续文本框 。连接补充主要基于传统的图像处理算法 。首先采用形态学变换,将离散的文字变换为连通的区域 。形态学变换的基本操作是膨胀 (Dilation)和腐蚀 (Erosion),高级的包括开运算(Opening)、闭运算 (Closing)、形态梯度 (Morphological Gradient)等 。
智能外呼顾名思义就是自动给客户打电话,有时候可能成为营销骚扰电话,从提效的方向考虑,可以自动对用户进行回访,调查客户满意度夫妻情感语录 。我们就和客户服务中心在做这方面的工作,主要是其中的NLP部分 。
这里有必要解释一下为什么要加上规则系统,因为对于深度学习来说 , 他并不是万能的 , 能够通过深度学习解决的问题一般都是重复出现,有一定积累的问题,而对于新问题而言,由于没有历史数据的积累,无法进行学习,此时就有必要加入规则系统 。这个问题不仅在NLP方面会遇到,在人工智能的任一领域都会遇到 。所以必须要有规则,80%的自动化 20%的人工,才能得到问题的最优解 。
时代的浪潮滚滚向前,技术的发展日新月异,人工智能的发展也是这样波涛起伏,期待着它将随着科创板的春风破浪而去 。
2018年5月 , Google IO大会上,谷歌CEO桑达尔.皮查伊展示了Google Assistant打电话的过程,直接打给美国中餐馆的服务员 , 自动完成了整个订餐过程 。Google在这个技术上持续耕耘了很多年,产品叫Google Duplex,后面将持续研发理智与情感人物介绍,当然微软也有微软小冰 。
现在的金融文档智能化主要是处理公告、年报、募股说明书、合同、债券募集说明书等 , 实现60%左右的智能化,剩下的都是各色各样比较难啃的骨头 。
例如针对公告,对于非扫描版文件 , 能达到90%的自动化处理,pdf里面有表格标签,可以很方便地把pdf转为html格式,然后还原出表格 。对于扫描版文件(占公告总体的10%左右) , 这里面只有60%能处理掉,剩余的40%样式各异,主要包括:无边框缺边框、标题反色、有底纹、跨页夫妻情感语录、单页多栏表格等各种格式的处理 。
未来的金融爬虫应该是接近于百度的搜索引擎 , 甚至发展成为金融社区、自媒体等 。除此之外,我们也在考虑如何拿到自媒体的数据做监控 。例如我们面向目标对象评价的情感算法精准度、召回率有多高 , 如何保证稳定精准地运行 。例如“天嘉宜化工厂爆炸”事件,它初步来看是负面的,负面新闻的主体是天嘉宜化工厂,然后爆炸事件可能是非常严重的负面事件 。这个事件的严重等级需要人工列出来 。它会影响到上下游哪些公司,上下游产业链怎么自动、半自动地构建?知识图谱可以在这里做得非常深入 。
科创板出台后,我们相信对于中小型科技企业的关系查询、全面的风险控制能力提出了更全面、更实时的要求,所以爬虫能力 NLP算法技术能力 知识图谱是我们持续跟进的方向 。
在投研领域,数据是业务的核心和基础 。金融行业的数据基本上分为两种类型,一种是传统金融数据,通过自动化的方式收集、整理市场公开信息 , 将非机构化的数据转化为结构化数据 。另外一种是特色数据或者另类数据,例如卫星图片、某些通过App拦截的特殊数据等 。
至于事件驱动投资的信号,也是越来越难找,以前的“高送转、股东分红”都基本失效了,在海量信息的噪声中,如何找到有效的投资事件信号?我们将重点基于极速的爬虫 事件信号的提取技术进行攻关 。
在A场上,包括各大券商的研究所有上万的研究员,他们研究行业、公司、公告、财务数据 , 有明确的研究思路、特定的研究框架,随着时间的积累 , 他们的研究都比较透彻 。但是这些研究工作总体来看,也有特定的格式,那么基于上述我们的自然语言处理工作,是否能够实现一些研报的自动化生产工作呢?
事实上 , 我们也做过一些探索 。大致思路如下:数据是血液,研究框架是筋骨夫妻情感语录,自然语言的语句生成是皮肤是包装 。举个例子,如果研究汽车行业,我们得了解汽车行业的研究背景、宏观发展,上下游产业链 , 国家政策等宏观数据,这些就是数据,然后可能分为新能源电动车、豪华车等 , 最后提出对几个龙头企业例如福特、大众的看法 。
这里面可能需要用到一些文本摘要技术 , 例如家电行业是不是出了国家的什么政策 , 我们就要把政策摘要出来,然后放到相应的研究框架节点里 。最后还可以通过一些CopyNet的技术让语句更通顺 。
面向C端的智能投顾,在对话技术越加成熟以后,也可能会用到这些来应对投资者的问题 , 投资者可以简单问“招商银行怎么样”,我们能自动地应答,这样就节省了人力,另外还能解决一些普通查询不好查的问题,例如i问财的“贵州茅台过去十年的roe情况” , “macd底部趋势反转的股票有哪些”等问题 。
但是对于智能投顾来说,这种对话机器人技术只是解决了效率提升的问题,没有解决根本的资产配置问题理智与情感人物介绍,总体来讲在中国的金融公司中是“雷声大雨点小” 。
源自《金融界银行》的报告中说,中国银行“中银慧投”、工商银行“AI投”、招行的“摩羯智投”都表现不佳,有的跑输货币基金有的跑输股票型基金 。目前中国全市场没有一款敢号称赚钱的智能投顾,这当然也有另外一个原因,中国的市场和美国的市场不太一样,美国市场重视基本面价值投资 , 中国的股票市场充满了短期投机的氛围,客户的钱给了智能投顾 , 三个月内亏了,客户就心虚了要赎回,巨幅回撤带给客户的压力是巨大的,亏损20%能忍 , 但如果一直往下走,亏到40%怎么办?50%呢?投资人往往在快熬到头的时候 , 心里的最后一道防线被突破,清仓走人 。所以短期的智能投顾很难做,甚至有的人提出智能投顾要做一年期以上 。
从目前来看,面向C端的智能投顾沦为营销工具,某些公司拿来宣传金融科技是可以的,但实际情况差强人意 。
智能投顾的优势是提升了效率,也不用人去管理,所以就可以大幅度降低费率 。例如对于一支ETF指数基金,对于被动型管理基金,完全可以通过全自动的模型算法来去做,例如国外的Schwab公司可以做到0费率 , 中国对于基金管理费还是过高 。
智能投顾自动调仓功能涉及我国的资产管理业务 。该自动调仓功能在澳大利亚证券业内被称为“全权委托账户”服务,在我国法律法规中称作“代客理财”业务 。智能投顾在业务方位、自动调仓、客户适当性义务上还存在一定的不确定性的合规法律风险,调仓涉及的管理费也是个问题 。
智能投顾是模型是基于风险组合、统计学模型的 , 那么如何应付黑天鹅?这也是很复杂的事情,光是组合管理是不够的,基于马科维茨风险均值方差理论的组合管理只是在钝化你对于风险的感受 , 但是它并不能防止亏钱 。
怎么样把这个数据通用化,实现小样本、迁移学习、实时智能反?。庋嬲迪帧氨呒嗜斯ぶ悄堋薄ⅰ笆凳比斯ぶ悄堋保?解决边际效应的问题,是我们未来自然语言处理技术的一个方向 。
【夫妻情感语录理智与情感人物介绍】道路是曲折的,未来是光明的 。人工智能大数据技术不断植入到金融体系之后,金融的DNA已悄然改变,这种说法有一种科幻和冒昧的味道 。但人工智能、自然语言处理背后绝不是投机主义,而是基于算法、算力、数据、经验规则的持续积累,对科技文化、对人才的尊重和渴求,对行业格局的深邃洞悉,是对人类最初梦想的追逐,是我们长期坚持要形成的助力金融创新的“硬科技” 。
猜你喜欢
- 人类的基本情感语文情感有哪些
- 唯美情感心语科普文案100例
- 情感冷漠症的人的恋爱
- 情感类自媒体简介知乎 情感博主推荐
- 恋爱学堂情感情感文案短文
- 正规的情感挽回机构
- 情感号简介对亲人的情感词语
- 夫妻双方在国外怎么离婚 夫妻双方均在国外居住怎样起诉离婚
- 夫妻共同创业离婚后怎么分财产 离婚后,怎么分财产
- 双向情感障碍能治好吗双向情感障碍是什么
