牛宝体育新闻

牛宝体育大数据时代的数据维度困境

2023-09-04
浏览次数:
返回列表

  随着投资者决策过程中使用的数据维度上升,横截面资产定价可能会陷入维度困境。相比于历史上投资者仅依赖有限金融数据进行决策的年代,维度困境下研究者使用传统的统计检验方法更容易得到“显著”结果,进而接受因子的预测能力、否定“有效市场假说”。随着金融投资决策所使用的数据维度爆炸增长,生活在更低维度上、依据有限指标做决策的投资者从历史中总结出错误“规律”的概率也快速上升。因此,在大数据时代,投资者应积极拓展数据维度,使用机器学习处理高维度数据的同时,重视样本外预测能力检验。

  因子投资是当前主流投资方法之一,其基础是多因子模型。多因子模型来源于上世纪70年代套利定价理论(APT),模型研究的是不同资产预期收益率之间的差异,而非单一资产收益率在时间序列上的变化。不同资产预期收益率的差异通常被称为(横)截面差异,由某一资产不同的因子暴露乘以每项因子的溢价决定。其中,因子描述了众多资产共同暴露的某种系统性风险,因子溢价正是对这种系统性风险的补偿,反映出一类资产的共性收益。主流的多因子模型通常包括有限数量(几个到几十个不等)因子。在选定因子模型后,如果按照某个特征构建的多空组合的预期收益存在一部分无法被多因子模型解释,且显著大于零,便宣称发现了“异象”(石川等,2020)。业界更为关心在考虑了成本后,资产是否能够获得超额收益,而“异象”提供了一种独特的风险暴露或纠正市场定价错误的盈利机会。

  因子投资完全构建在统计和计量经济学方法之上,依赖t、F等检验统计量去发掘新的“异象”,然而,在高维数据环境下,传统的检验“市场异象”的方法遭受巨大挑战。

  大数据时代为量化分析师提供了更多可供挖掘的“数据矿产”,也使得影响资本市场的因素大幅增加:(1)机器学习将文本信息转变为数量信号,例如通过分析师研报文本,来评估分析师对企业的看多程度以及是否隐瞒利空消息;(2)将图片信息转变为数量信号,例如把卫星图像转化为企业实时生产数据等;(3)收集社交网络信息,通过社交网络数据分析企业的舆情以及社交媒体交叉关注带来的市场情绪影响,等等。

  早期投资者只有财务报表等十分有限的渠道去了解企业的经营状况并判断企业未来的现金流变化,因此股票价格主要对财务指标作出反应,漫长的信息空窗期里价格的起伏都可以被归结为投资者情绪和市场噪声。而今,伴随大数据时代洪流,通过网络购物平台,投资者可以实时关注某品牌新一代手机的销量;通过社交平台,可以关注并分析年轻一代消费者对牛宝体育品牌的喜爱程度、预测企业产品的溢价能力;通过招聘网站“爬取”企业用工数据,不一而足。

  将庞大体量的数据都用于预测股票价格成本高昂,同时,普通投资者很难接触到其中大量数据。导致的结果是,虽然股票价格的决定因素日趋高维度,股票收益率的横截面差异同时受到成千上万种因素影响,但绝大多数投资者“生活”在低维度空间里,只能感知到十分有限的数据变化,基于有限维度的数据进行收益率预测、投资决策。

  投资者总结资本市场规律的过程依赖统计学方法,基于样本内数据统计分布特征,构建统计检验值和临界值,进而检验在某一假定下,出现样本内数据统计分布特征是一种常态还是极端罕见现象,如果极端罕见,比如低于5%,则认为原假定(通常为某因子不具备预测效力)被拒绝,该因子“显著”。通过上述过程,投资者通过数据样本可以检验不同的理论假设,总结出资本市场运作的“规律”,譬如过去一年中表现较好的股票往往在下个月存在超额收益。然而,在大数据时代,股票价格变动背后的决定因素陡然增加,当企业特征因素的维度J快速上升时,投资者更容易从数据分析出错误的统计结论。

  假定决定股票价格横截面差异的企业特征因素总共有J种,投资者所要解释的股票价格样本量为N,当J远远小于N时,投资者可以通过各类回归统计方法,通过观测有限g维度的数据,总结出“规律”。其中,观测数据的维度g反映了投资者对于资本市场规律的理解和认知:每个投资者观察的维度都存在一定差异,透过私有信息和公开信息观察市场并做出投资决策。然而,Martin and Nagel(2019)通过数学推导和模拟证明,真实的数据维度J和投资者观测数据的有限维度g会扭曲样本内数据的渐进分布特征。特别地,当真实世界影响投资者决策、进而影响股票价格的企业特征J不再是远远小于投资者所要解释的股票价格样本量N,此时,投资者得到“有效市场假说”不成立牛宝体育、发现某一因子对截面收益具有预测效力的概率也会大幅增加。在大样本环境下,基于传统统计理论构建的检验值亦会失效,因此,当J不再远远小于N时,使用样本数据得到的统计显著性变得不在可靠,这时投资者总结得到“规律”更像一种“迷信”而非客观事实。

  众多发表在学术期刊的因子被证明在样本外无法盈利。McLean and Pontiff(2016)比较了三个不同阶段基于每个预测变量(因子)的投资组合回报:(1)针对某因子的原始学术研究中使用数据的样本期;(2)原始样本期之后但研究正式发表之前;(3)论文出版之后。以“公司年龄”因子为例,最初针对这个因子研究的样本时间段在1931年至1982年,论文发表在1984年。所以1931年至1982年就属原始样本期;1983年属样本外但正式研究发表前阶段;1984年后属于研究发表后阶段。他们发现,基于97个量化因子的投资组合收益在原始样本期的月平均收益率为0.582%;在样本外但发表前的月收益率为0.402%;而在研究成果正式发表后的月收益率则为0.264%。基于因子的投资收益在样本外下降了26%,在研究发表后相对样本期间下降58%。同时,样本内投资组合收益越高(信号越强,越能“赚钱”)的因子在研究发表后收益下降越大。那些仅利用价格和交易数据的量化因子,偏重流动性强和低个体风险股票的因子,基于其设计的投资组合收益率在研究发表后衰减得更厉害。

  针对样本外失灵,市场倾向于将其解释为:(1)“发表偏差”;(2)“数据挖掘”;(3)套利活动消除了定价错误。“发表偏差”指金融学术期刊更喜欢发表统计显著的实验结果,就像生物学期刊更喜牛宝体育欢发表“xx有助于治疗xx”而非证明某项治疗效果不显著的论文,这使得证明“有效市场假说”失灵,某项因子有预测效果的证据更容易通过学术讨论传播,而那些不利证据被掩盖。“数据挖掘”反映典型的“墨菲定律”,只要某一件事有一定发生概率,在海量的尝试下,必然会发生大数据。套利消除定价错误的逻辑则很难验证。

  “发表偏差”和“数据挖掘”产生了大量资产定价因子 (Cochrane, 2011; Harbey et al., 2016),这种方法对投资者在样本外获取超额收益并没有太多帮助。上述解释给了业界投资者一定心理安慰:只要自牛宝体育己遵循科学的统计方法,不去刻意挖掘数据或数据造假,就可以获得稳定的因子。但Martin and Nagel(2019)的研究已然说明,即使没有“发表偏差”和“数据挖掘”,在大数据时代得到具有统计显著性的预测变量的概率也大幅度上升,投资者在低维度上很难总结出有效的规律。

  当数据维度过高时,传统的统计方法如OLS等无法识别参数,过往的做法是人为地施加稀疏性约束:将大部分数据维度的系数设置为零。这一过程反映了投资者的先验信息,譬如部分投资者对股票价格信息嗤之以鼻,另一些投资者完全不看分析师报告,通过主观地降低数据维度,投资者可以从过往历史中识别“规律”,但如前文所述,大数据时代,使用传统的统计方法会轻易得到错误的“规律”。

  对此,机器学习用罚项引入稀疏性特征,对数据进行收缩,以解决数据维度过高问题,通过降低一些信息的权重来降低预测的噪音。维度收缩并没有完全解决参数不确定性问题,但是目前最为可行的办法。与此同时,在大数据时代,样本外检验的重要性大幅上升,即事前划定一部分数据独立于参数估计之外来检验预测效果,遗憾的是,目前尚未形成划分训练集大数据、测试集的标准方法。

  当真实世界影响股票价格的企业特征数据维度接近样本量时,统计学家几乎必然决绝市场有效的零假定,但极大概率下统计学家在较低的数据维度下验证了错误的“规律”。这种困境下,低成本的被动投资是投资者的次优选择。

  本文首先介绍了主流截面投资的逻辑、方法,指出其高度依赖传统的统计方法,后介绍了金融数据维度快速上升扭曲了金融数据分布,导致检验指标普遍失灵。随着决定股票价格横截面差异的企业特征因素进一步增加,拒绝“有效市场假说”的潜在概率大幅上升,投资者也更容易得到错误“规律”,发掘出大量不具备实际的预测能力的定价因子。综上,数据维度困境增加了使用机器学习工具和样本外检验的紧迫性。

  [1] 石川、刘洋溢、连祥斌. 因子投资:方法与实践,北京:电子工业出版社,2020.

  [2]斯蒂芬·内格尔. 机器学习与资产定价,北京:电子工业出版社,2022.

搜索