塞帕思投资王潇航：量化投资与人工智能

培训与活动更多>>

私募基金更多>>

基金经理更多>>

投资资讯更多>>

您当前的位置：首页 >> 私募基金

塞帕思投资王潇航：量化投资与人工智能

时间：2019-05-30 22:23 来源：国盛证券研究所

摘要: A股是一个博弈市场，而不是简单的找规律的市场。所以说很多神经网络的模型在A股市场几乎是没有用的，因为人脸是科学的，语音识别也是科学的，但是A股是不科学的，我们挖出来的强因子很有可能未来是失效的，这就是A股面临非常大的情况。

王潇航塞帕思投资管理有限公司董事长

国盛证券研究所量化投资与FOF论坛

主持人：其实很长一段时间已经开始对量化没有什么信仰和失去信心了，但在失去信心的时候我们发现中国一大批优秀的私募首先打破了原有的困境，其中塞帕思就是这批私募的优秀代表。今天我们很荣幸请到了塞帕思的董事长王潇航先生来跟我们做一个分享，他分享的题目是“量化投资与人工智能”，大家欢迎！

王潇航：非常荣幸在这个中期报告上来跟大家分享一下量化新的方向，刘总是量化这个圈子里面很早的研究者了，我听了一下感觉我们好像在做的事情分不清是传统量化还是主动量化，刚才坐刘总左边这个同事在讲关于神经网络的东西，我们现在就一直致力于新的神经网络的研究。

机器学习本身是一个比较复杂的东西，我想从我们自己发展的角度和一个模型构建的角度简单介绍一下机器学习在股票市场上的应用。主要是这五个方面，一个方面是简单讲一下什么是机器学习，逻辑在哪里，第二个ALPHA在中国已经发展将近十年了，这十年之间究竟模型有什么样的更迭，第三个是我们目前所用的因子挖掘器的情况，第四个是我们自己构筑的神经网络，我们现在构筑了250层的神经网络，最后讲讲，因为本轮科技就是来自于70年前爱因斯坦发明的量子力学，我们现在所有的科技水平到目前为止在很多行业已经达到了巅峰，进步的空间会没有那么大，人工智能在未来会有一个怎么样的发展，对于我们投资有什么指导意义。

首先我们是一家成立于2015年5月份的公司，从2015年7月份开始做量化投资这一块，到目前为止我们差不多管理了将近40亿的量化对冲资金规模，四年以来平均量化对冲收益是25%。

首先讲一下机器学习。因为所有做量化、做技术面分析的人都在做一件事情就是拟合，我们一直想通过各种各样的指标来知道这个世界上什么股票涨得比较好。机器学习告诉我们一个什么道理呢？从最早开始上函数这个课的时候，老师就跟大家在分享一个道理，我在黑板上画了很多点，我怎么通过一条曲线或一个函数拟合出所有的点，这就是函数最初的背景，在金融市场上，我们用因子和函数来描述这个市场，这两个问题伴随着这么多年Alpha的发展。所有Alpha模型的发展，一方面是因子的发展，另一方面是函数的发展，从初期的统计干的一件事情，它认为我找到了一种模型，用这个模型把因子迭代会有一个比较好的收益，这个是比较主观的，它不是让计算机自己去寻找模型。机器学习干了一件事情，机器学习原理就是对于任何一种机器学习搞出来的算法都不断在算一个东西，就是损失值，我预测出来的东西和实际的东西偏差有多少，如果偏差很大，那我这个模型肯定不对，所以所有机器学习模型在干的事情是不断地降低偏差值，这就是非常有意义的事。如果说我们能找到一种很新型的神经网络，它可以用因子不多的情况下可以把整个A股拟合出来（防止过拟合的前提下），这是非常有意义的，可能会涉及到过拟合（尽量避免该情况）。所以说机器学习干的事就是去寻找损失函数最小。

以一个简单的例子来讲什么是损失函数的降低，比如说现在有一根直线，二元的曲线肯定只有两个参数，这两个参数可以通过不断地调来寻找它实际的偏差，这个偏差高度就是所谓的偏差值，我们要找到高度最低的两个参数。这个就非常有意思了，这就涉及到机器学习中所谓的最快梯度下降法，打个比方，当我们在一个山峰的时候，我现在是一个机器人，我在一个山峰上，我现在要寻找山的最底下，机器学习是不知道什么叫最底下，它不知道什么是山脚，它是怎么寻找所谓的山脚，当它到底一个点之后，这个点往任何方向走都不会再下降的时候就认为达到了山脚，但是这种情况在现实中可能只是在一个山的中间，但总的来说我们通过无数次的，比如说我现在在山顶，我开始是往正前面走，后来我偏15度，再偏15度，或者再更精确，我总能在每一个偏多少度都能找到一个局部最优点，众多的局部最优点中一定会有一个山谷，这是整个机器学习学科的逻辑，这也是量化最大的逻辑，因为所有量化模型在干的事情就是用整个历史数据去寻找可能存在的Alpha因子，这个Alpha因子一定是拟合相对比较好的（也就是损失度越小的），这就是整个机器学习最基本的原理。

中国的Alpha说时间长也不算长，就十年，跟美国相比差太远了，但是作为舶来品在中国发展得非常快，从最初的多因子模型，最初的多因子模型转的是国外那一套，在国外基本面投资是非常有效的，财务数据都是精准的，所以说在国外做基本面的多因子非常有效，因为最核心的逻辑就在于它的财务数据是真实的。到了国内之后，最初一批做量化还是使用因子偏少多因子模型，这个是2015年我们开始做的时候整个中国市场做得最好的模型，就是多因子基本面。多因子基本面有一个非常大的问题，它的解释变量太少了，一般的多因子最多只有几百个解释变量，但是股票市场是非常复杂的，通过几百个变量就要解释一个复杂市场，这是不可能的，就好像我现在要识别一张人脸，但是我只有一个指标就是鼻子有多长，这是不可能完成的，这个就是最传统的多因子面临的问题，它的解释变量太少了，但它也有很大的优点，在国外市场它可以有非常好的资金管理规模。

从2015年开始之后，我们经历了2016年超级的贴水情况，我们是2016年的时候跑赢了市场100个点，但是贴水有将近40多，我们Alpha只做了30，那一年我们什么感觉呢？好像活下来的全部是做所谓高频的，高频干了一件什么事呢？我们把原来的频率季度调仓、月度调仓，降低到非常低的频率，到目前为止15分钟做调仓，这样因子整个逻辑层面完全变了，其实对基本面的依赖已经不大了，15分钟寻找有超额的股票跟基本面没什么关系了，这样要寻找一些有统计意义的因子，这就是刚才这个同事说的，他们一直用神经网络寻找溢价因子，这些因子是没有逻辑的，但是它是有统计意义的，这也是我们在干的事，我们现在因子差不多有3万个，这就是高频，把频率降低了，它认为就是预测短期是可以做的，长期很难，我们都知道天气预报越来越准了，但是天气预报没人预报一年以后发生什么事，但是预报明天什么天气太简单了，所以在2016年到2018年基本上都是以高频在统治量化市场。

但是在2018年之后又遇到了一个新的问题，2018年的换手太低了，低到高频都生存不下去了，这个时候大家就开始思考一个问题，我们现在量化管了多少钱，我们整个中国量化现在管了将近3000亿，3000亿中有1500亿是公募基金的钱，我们剩下这些就是量化私募管理1500亿，我们这些做高频私募管理将近管了1000个亿，我们在去年最低迷的时候高频贡献了整个市场15%的成交量，这个是很夸张的，量化已经不是在寻找和跟踪市场，而是在主导这个市场。

去年开始高频也开始发现高频的瓶颈，当这个交易量非常小的时候是很难做出收益，所以很多人就加T0，T0跟高频面临的问题是一样的，我们所有投资人都不断在问我们一个问题，为什么不+T0，我是可以+T0的，大家没有去思考过一个问题，是纯Alpha好还是Alpha+T0好，如果仔细思考一下，Alpha和T0是一个相悖的东西，没有一只股票能具备高Alpha和高T0的价值，这就意味着怎么来平衡Alpha和T0又是一个新的课题。目前为止，我们的金融经验告诉我们还是应该纯做Alpha为主，因为这样我的T0不会去污染我的全股，我还能获得我稳健的收益。

到现在为止，量化我觉得应该是又进入一个新的战场，因为到目前为止几家头部的量化私募在因子挖掘方面都已经做到了很极致的水平。所以接下来讲关于因子的情况。整个股票市场不断在用因子去描述这个市场，所以说我们要干的事就是去挖更多的因子，去挖更多有效的因子。

到目前为止因子挖掘是分成两派别，一方面是挖掘有经济学意义的因子，另一派像我们这种是，我反正纯用数量战胜质量，我不断寻找有统计学意义的因子。用神经网络去挖因子，这也是头部几家都在干的事情。神经网络挖因子干了一件什么事呢？它是从各类的金融数据库里获得底层的因子，这是最关键的，我们所有的量价也好、舆情也好、金融数据流也好，底层因子是不多的，我们目前获取差不多150左右，通过这150个因子相互的拼接可以产生新的因子，这些新因子是非常复杂的，它看起来没有什么意义，比如说有些因子是开盘价×量/开盘价，再开根号，很难说它有什么经济学意义，但它在统计上的表现意义非常好，这就是通过随机生成的方法让计算机不断地去拼接。

这个课题难在什么地方呢？难在我拼接出一个因子之后我怎么去验证它到底有没有效，这是非常复杂的，这是非常大数据的工程，比如像我们现在挖了差不多3万个因子，但是我挖出3万个有效，是因为我已经挖出300万个样本，这就意味着我检验每一个因子都要非常快速，打个比方，我检验这个因子需要一分钟，我这个项目就没什么意义了，所以核心在干的就是第三步，不断地增加验证效率，我们现在差不多15秒，基本上还是能有效地去挖掘因子。

但是因子挖掘就面临最核心的问题，因子挖到这个程度基本已经挖完了，因子曲线已经收敛了，开始挖非常快，越到后面越挖不出新因子，就像一个有距离的长跑，有些人已经跑完了，但是稍微等一下后面的人也跑完了，所以说前几年靠因子赚钱是比较简单的，因为大家都不知道，但现在要靠因子赚钱相对难一些，因为大家的因子库都在一个水平上了，这就是现在最核心的。

以前我们一直在跟外界讲我们这个东西很牛，因为15秒就可以挖一次，我现在已经是市场上因子数目最多，后来我们发现，过了一年之后，别人也已经挖到这个水平，这时候我们就很有危机感，2017年11月份我们全挖完了，我们认为基本全挖完了，当时我们在想量化还能干什么呢，因为我们认为已经把因子挖到很极限的地步，再挖提升也不大了，后来我们就开始思索算法。

神经网络其实模仿的是一个人脑思考的模式，比如说我现在看这盏灯，我们人有6个感官，我通过6个感官获得了很多维度的信息，我通过我的大脑神经去处理它，然后我知道这个东西是灯。因为因子我已经挖到很极限的地步，所以我现在要干的就是去优化我的神经网络，去构建新的神经网络，这是我们认为目前为止甚至未来十年最有意义的事，就是构建自己独特的神经网络。

人工智能这个行业是比较久的一个行业，但是因为一直以来算力的限制也好，算法的限制也好，一直没有发展起来，但是近五年突然蓬勃发展，但是人工智能目前为止大部分人在干一件事情，用别人的模型，用的深度学习、增强学习，不断地调用别人的模型，这是现在人工智能这个行业的情况，很少有权威的机构能够构造自己的人工智能神经网络，这个是非常有意义的，不同的数据之间它的特性是不一样的，比如说最开始的时候我们是做人脸识别的，人脸识别是非常简单的工程，人脸是很固定的，我们做了一个研究，截取了5000张人脸，我们发现一个规律，95%以上的人脸鼻子就是在你这张脸，比如说分成8*8格，鼻子的位置是相对来说比较固定的，这样人脸识别就非常简单，它要干的事情就是固定区域的识别，它只要识别出，比如说我知道鼻子是在这个地方，我不需要再去寻找鼻子。当我们做语音识别的时候又面临新的问题，我们说一段话是没有固定的，因为语音识别说的时间不同、重点不同。我们现在A股做的事情就更加不同，因为A股规律是一个弱有效的东西，我们量化一直在干一件事情，我们去寻找历史中有效的规律，但是这个规律在未来是否会再重演，这是没人知道的推论，这是整个量化行业的假设，但没有人真正去验证过它，这是最核心的问题，很有可能，比如说我现在认为小盘股这个因子通过机器学习来看是一个非常有效的，但是可能在未来十年它就无效，因为未来会面临，比如说以后不断地打压投机，短周期的波动因子就开始失效了，这个是人工智能所不知道，这就是最核心的问题，A股是一个博弈市场，而不是简单的找规律的市场。所以说很多神经网络的模型在A股市场几乎是没有用的，因为人脸是科学的，语音识别也是科学的，但是A股是不科学的，我们挖出来的强因子很有可能未来是失效的，这就是A股面临非常大的情况。所以我们认为最有意义的事情就是构建一个新型的神经网络来面对A股这种独特的数据，但是目前为止现在机构里面做独特神经网络的还比较少。

神经网络这个东西什么时候让大家发现算法和算法之间的差距是非常大的，就是我这边这张图，在2012年的时候有一个美国人，在2012年的ImageNet上提出一个CNN算法，以前的时候最好的一个分类误差是74%，意味着我给你100张人脸，有26张是分辨错的，这个就不用做商用了，在那之前人脸识别这个行业没有发展起来，但是在那年的比赛中这个美国人用了一种新型的CNN，卷积神经网络，他用这种新方法去做人脸识别，发现把人脸误差的记录从26%降到了15%，这是一个很高的提升了，其实在人脸识别领域1%的提升就是质的飞跃，但它提高了11%，这时候让很多做人工智能震惊了。就告诉大家一个道理，神经网络一个学科不是一个普适的情况，是不同行业需要有不同的神经网络，从这个人开始之后层出不穷的神经网络开始被发明出来。

举几个例子，这是我们用到的东西，GAN对抗神经网络，我们都知道A股的数据很短，A股只有20年，有tick数据就只有几年，太短了，对我们做人工智能来说我要训练的东西实在太少了，是得不出什么信息的，在很多领域都是这样的。有一个人提出一个Gan对抗神经网络，这是非常巧妙的设定，我现在搞两个神经网络，一个神经网络用来生成数据，一个神经网络用来判别数据，生成数据我用现在真实的数据，用它的分布特征去生成一些新的数据，用另外一个神经网络来判定，如果说另外一个神经网络判定不出真假数据，意味着我生成一个好的样本集。打个比方，我们现在计算机在识别人脸工程的时候，比如说我们现在有100个亚洲人，但是我觉得100个亚洲人的数据是不够的，我就让生成神经网络不断地生成新的样本数据，我用这个判定网络去判定，它们俩不断地对抗、博弈，如果说对抗到最后识别不出来到底哪些是真的数据、哪些是生成的数据，就说明生成的神经网络已经达到了很智能的地步，这个在A股是有非常重要的应用，因为我们的数据太短了，通过这个我们可以把数据延伸得非常长，这个就是我们不断和机构说的所谓的数据发生器，这就是最核心的原理，这就是数据集的拓展。

还有就是增强学习算法，这个东西也是很有意义的东西，很多算法都是超级创新的人才在一个非常小的领域做一些非常好的提升，比如增强学习。增强学习是什么概念呢？我们所有人思考问题的逻辑都是正向的，肯定是我决定干什么再决定干什么，很少有人是从结果往回推的，因为人的算力是有限的，就好像我现在跟人下一盘象棋，我不可能从结果往回推，因为结果是无穷的，但是增强学习就告诉大家一个算法，我每一个决策都是依赖于我下一个决策，比如我现在在做股票交易，我到底要不要平仓，其实取决于两点，就是我的Alpha收益和平仓的手续费，这就意味着我每一步决策不是依赖于我过去的情况，而是依赖于我将来会发生什么事，比如说平了仓之后就固定产生这么多手续费，这样我就选择不平仓，这就是增强学习，动态规划在股票市场上的应用。

第三个机器学习做的非常大的贡献，正则化，比如说我现在有一个因子库，有3万个因子，不同的因子之间数据结构是不一样的，比如说收盘价和交易量是完全不一样，没法做它用横向的比较。我们就干一件事情，正则化，把它独立分布成一个正则函数，这样它们都遵循一个分布，这样就可以做比较，这么多年来大家一直在这么干。

后来机器学习就提了很多新的思想，比如Batch Normalization，以前我们做数据工程的时候发现一个非常有意思的现象，当我们把数据正则化之后，我们发现训练速度大幅加快，非常容易得到一个拟合的结果。机器学习在这个基础上做了一个想法，机器学习是一层一层的神经网络，每一层神经网络都依赖于上一层的结果，上一层的结果是下一层的输出，这样我就把每一个上层的结果都做一个正则化，通过这个方法就可以更快用更少的层数获得更精准的答案。

还有一个是Boosting，我最开始说的那个例子，老师在黑板上画了很多点，让我找一个函数去拟合它，当我的因子无穷的时候，我肯定能拟合出来的，比如像A股市场，我能获得无数的因子，那我一定能把每一个点完美地穿起来，这是没有意义的，就过拟合了。Boosting就告诉大家一个道理，我们可以把很多比较弱的神经网络结合起来，组成一个新的神经网络，它可以有效地防止过拟合的过程，因为一群弱的神经网络是没有办法过拟合出新的函数，这样的话它们的结合，就像我现在的算法就是一根直线、一根函数，我们通过比较简单的几个来做一个平均，这样就可以防止过拟合。

这是机器学习这么多年来在算法上很多的应用，这些应用在量化里面很多人都没思考过，这是机器学习给量化带来很大的冲击，怎么去用新的神经网络来干这个事。

因为传统的场景数据有一个非常好的情况，都是科学的，但是股票市场是非科学的，我们排除数据、因子，所有驳论之后，只有这两个特性就说明了股票市场和别的市场是不同的，人工智能领域在股票市场的专家和别的市场的专家是不同的学科背景，所以说就要构建一个新型的神经网络。

这是我们目前在用的一个东西，我们有3万多个因子，其实不可能做机器学习，因为机器学习这个东西只有几百个因子都要训一个月，所以我们需要做的事情是降维，每天不断从3万个因子中寻找短期合理的因子，因为量化是很容易失效的，但是没有一个因子是永远失效的，因子只有短期失效，我们把我们的周期变短，因子使用的频率可能只有一天甚至更短，像我们现在已经在做日内的调整，这样通过更短周期的时间去挖掘短周期的Alpha因子。这样最大的好处在于，从短周期来看一个因子持续一天还是比较简单的，比如说今天的动量因子是有效的，我们认为明天的动量因子，甚至说这15分钟动量因子是有效的，下15分钟动量因子也是有效的，这个完全依赖于机器学习算法的能力，如果算法足够强，我们就可以把经验维度提出来，这就是我们降维。

第二，层数，我们所有人都在谈结构，人类的发展就是一个结构的发展，我现在有一个单位，打个比方有100个人，我现在这个单位有两种管理方式：一种是扁平化，就是100个人都是老板，遇到什么事就100个人大家投票决定了，这就是典型的希腊城邦制的选举，它有一个非常好的优势，非常简单，要处理一件事情只需要花100次就可以把这个事情处理完，但是它得出来的结果是有失公允的，因为真理是掌握在少数人手里，只是做简单的平均得到的答案都是错的。后来人们就发生了一个事情，要有一个上下级的概念，封建社会强调要有一层一层，我现在把这100个人分成50层，每层只有2个人，每个事情进来先两个人决策，再两个人决策，通过50层的决策之后已经比较精准了，但是它面临最大的灾难就是，原来只要干100次的事情，现在要干2-50次，将近是提高了10-11倍。所以机器学习在干这个事情，因为算力是有限的，而且算力发展是很慢的一件事情，怎么从有限的算力中去构建成多层的神经网络，因为层数越多，相对来说会更加精准。

还有一个是函数，所有机器学习的底层都是简单的应激函数，人类这么多年函数的发展是非常慢的，这就是更核心的问题，怎么去研发更多的核心应激函数。

这是我们目前在做的三种研究。

最后讲讲人工智能的未来。我是学统计的，统计教会我一个道理，人类的文明发展也好，任何事物的发展也好，它的熵是不断降低的，熵是一个复杂度的定义，当我还是一个小孩的时候，我这个熵是非常大的，但是在我长大过程中我的熵只能是越来越小，我在小的时候是可能无限的，但越长大，比如到我现在，我就是学数学的，我肯定做数学相关的，我不可能去学艺术，所有事物的发展都往熵越来越小的方向在发展，就好像现在这边比如说有100张桌子，它是非常混乱的，一定会有人把它整理掉，所以说所有人类文明就是熵在不断降低的过程，因为熵降低了意味着简洁，简洁意味着高效，高效意味着人类文明的进步。计算机是一个非常有趣的发明，人类是一个低熵动物，但却发明了一个高熵系统，计算机是目前为止整个人类所有发明系统中熵最高的。人工智能是一种在计算机系统上又做了一个熵的增加，这使得它可以探究更多未知的领域。这个就是人工智能未来最大的优势，从底层来说它的优势是熵，我们所有做的算法都是提高这个熵，这是人工智能未来最大的发展和可能性。

谢谢大家！

分享到：

上一篇 : 主动量化与传统量化之辩
下一篇 : 7月上海站.python量化自动交易系统vnpy特训营

塞帕思投资王潇航：量化投资与人工智能

期投网公众微信号：期研社