这篇讲什么
中文世界第一本系统讲多因子投资的实操教材。从学术研究到 A 股实证,把因子从 Fama-French 三因子讲到 Smart Beta,既严谨也接地气。
一九九二年,两个经济学家发表了一篇论文,把此前四十年的主流投资理论打了个措手不及。他们用近三十年的真实数据说明:你以为能解释股票涨跌的那个公式,其实解释不了什么。这件事的影响远不止学术圈——它直接催生了今天规模以万亿美元计的「因子投资」行业,从量化基金到你在券商App里看到的Smart Beta ETF,背后都是同一套逻辑。但大多数人对这套逻辑的了解,停留在「听说过」三个字。这本书想做的事,是把这套逻辑从头捋清楚:因子到底是什么?它为什么能赚钱,赚的是谁的钱?在A股这个和美股气质截然不同的市场里,它还管用吗?什么时候会失效?读完你会发现,因子投资既不是什么神秘的黑箱,也不是稳赚不赔的公式——它是一种有边界、有代价、需要真正理解才能用的思维方式。
谁该读这一篇
- 看懂CAPM到三因子模型的演进脉络,理解「因子」这个词的真实含义
- 拿到五个经典因子背后的数据逻辑,判断哪些规律在A股真实有效
- 学会识别回测陷阱和数据挖掘偏差,避免被「历史验证」的策略误导
试听第一章音频解读
精读全文
第 1 章 · 什么是因子:从 CAPM 到 Fama-French
如果有人告诉你,股市里的赚钱机会,其实是有规律可循的——你信吗?几十年来,全球最聪明的一批人,用数据、用模型、用几十年的历史去验证这件事。他们找到的答案,叫做"因子"。
想象一个问题。
你买了一支股票,赚了钱。
这钱,是你运气好?还是你承担了某种风险,市场给你的补偿?
听起来像哲学题。但这个问题,在过去七十年里,让无数经济学家、数学家、基金经理争得头破血流。
而这本书,就是要把这场争论的答案,清清楚楚摆在你面前。
---
**全书导览**
这本书叫《因子投资:方法与实践》,作者是石川等人。
这本书我们会分四章来读。
第一章,我们从最基础的问题切入——什么是因子?从最早的单因子模型 CAPM,到后来颠覆它的法玛-弗伦奇三因子模型,我们搞清楚"因子"这个词到底在说什么。
第二章,我们深入五个经典因子,看数据怎么说。价值、规模、动量、盈利、投资——每一个背后,都有真实的历史数据在撑腰。
第三章,我们走到实操层面。聪明贝塔 ETF、多因子打分、A 股的特殊性——因子怎么真正落地成一个投资组合?
第四章,我们踩刹车。回测陷阱、数据挖掘偏差、因子拥挤——因子投资的边界在哪里?什么情况下它会失效?
好,现在我们从第一章开始。
---
**故事从一九五二年说起**
那一年,一个二十五岁的年轻人,坐在芝加哥大学图书馆里,读到一篇改变他一生的论文。
这个年轻人叫哈里·马科维茨。那篇论文,是他自己写的。
他提出了一个在当时看来几乎是异端的想法:投资不能只看收益,必须同时看风险。而风险,可以用波动率来衡量。更重要的是,把不同资产组合在一起,可以在不降低收益的前提下,降低整体风险。
这就是现代投资组合理论的起点。
但马科维茨的理论有一个问题——太复杂了。他的模型需要计算每两支股票之间的相关性。如果你有一百支股票,你需要计算将近五千个相关系数。在那个没有电脑的年代,根本没法用。
---
**威廉·夏普的简化**
十年后,一九六四年。
威廉·夏普站出来说:我来简化它。
他的核心想法是这样的——与其追踪每两支股票之间的关系,不如找一个"公共驱动力"。这个公共驱动力,就是整个市场的涨跌。
他的逻辑是:一支股票的价格波动,可以分成两部分。
第一部分,跟市场一起动。市场涨,它涨;市场跌,它跌。这部分叫"系统性风险",是无法通过分散投资消除的。
第二部分,是它自己独特的波动。这部分叫"非系统性风险",可以通过买很多支股票来对冲掉。
夏普说:既然非系统性风险可以消除,市场就不应该给你补偿。真正应该被补偿的,只有系统性风险。
这个系统性风险,用一个希腊字母来衡量——
贝塔。
---
**CAPM:一个优雅的世界**
夏普的模型,叫资本资产定价模型,简称 CAPM。
它的逻辑极其简洁:一支股票的预期收益,等于无风险利率,加上贝塔乘以市场风险溢价。
用大白话说就是——你承担的市场风险越高,你的预期回报就应该越高。
贝塔等于一,就是跟市场同步。贝塔等于二,市场涨百分之十,你涨百分之二十;市场跌百分之十,你跌百分之二十。
这个模型,漂亮。优雅。简单。
一九九〇年,威廉·夏普因此拿到了诺贝尔经济学奖。
但是——
等等。
---
**数据打脸**
如果 CAPM 是对的,那么世界上应该只有一个变量能解释股票收益的差异:贝塔。
高贝塔的股票,长期表现应该更好。
你猜数据怎么说?
不对。
从二十世纪六十年代开始,就有研究者发现,高贝塔的股票,长期表现并没有显著优于低贝塔的股票。
更麻烦的是,有人发现了一些 CAPM 完全解释不了的现象。
比如,小公司的股票,长期回报高于大公司。
比如,低市净率的股票(也就是"便宜"的股票),长期回报高于高市净率的股票。
CAPM 对这些现象的解释是:没有解释。
这叫"异象"。
---
**法玛和弗伦奇出场**
一九九二年。
尤金·法玛和肯尼斯·弗伦奇发表了一篇论文。
这篇论文,在学术界引发了地震。
他们用美国股市从一九六三年到一九九〇年,将近三十年的数据,系统地检验了 CAPM。
结论?
石川在书中的核心观点是:贝塔与股票截面收益之间,几乎没有显著的正相关关系。
换句话说——
CAPM,在数据面前,败了。
但法玛和弗伦奇没有止步于此。他们接着问:那什么变量,能更好地解释股票收益的差异?
他们找到了两个。
第一个:规模。小公司股票,系统性地跑赢大公司股票。
第二个:价值。低市净率股票(价值股),系统性地跑赢高市净率股票(成长股)。
---
**三因子模型诞生**
法玛和弗伦奇把这两个变量,加上原来的市场因子,合在一起,构建了一个新模型。
三个因子。
第一,市场因子:整体市场相对无风险利率的超额收益。
第二,规模因子 SMB:小公司股票组合,减去大公司股票组合的收益差。SMB 是英文"小减大"的缩写。
第三,价值因子 HML:高市净率比率股票组合,减去低市净率比率股票组合的收益差。HML 是英文"高减低"的缩写。
这就是法玛-弗伦奇三因子模型。
它对股票收益差异的解释力,远超 CAPM。
---
**但"因子"到底是什么?**
好,到这里,你可能已经有点晕了。
让我们停下来,把最关键的概念说清楚。
因子,到底是什么?
石川在书中写道:因子是能够系统性地解释一组资产收益差异的、可量化的特征变量。
注意这里的每一个词。
"系统性"——不是偶尔,是长期、稳定、跨市场地存在。
"解释收益差异"——不是解释某一支股票的绝对涨跌,而是解释为什么这组股票跑赢那组股票。
"可量化的特征变量"——必须能用数据算出来,不能是"感觉这公司不错"。
---
**因子背后的两种逻辑**
这里有一个根本性的争论,至今没有完全平息。
为什么这些因子会带来超额收益?
有两种解释。
第一种:风险补偿。
这是法玛自己的立场。他认为,价值股之所以长期跑赢,是因为它们更危险。便宜的公司,往往是陷入困境的公司。你买它,承担了更大的财务风险。市场给你的高回报,是对这个风险的补偿。
第二种:行为偏差。
另一批学者认为,这跟风险没关系。是因为投资者不理性。大家系统性地高估成长股,低估价值股,导致价值股被低估,未来回报更高。
这两种解释,对投资者的含义完全不同。
如果是风险补偿——那你得问自己:我愿意承担这个风险吗?
如果是行为偏差——那你得问自己:这个偏差会永远存在吗?还是有一天会被套利掉?
---
**动量因子:法玛最不愿意承认的那个**
说到这里,必须提一个因子。
动量。
一九九三年,马克·卡哈特等人发现了一个现象:过去三到十二个月涨得好的股票,接下来三到十二个月,往往还会继续涨。
这就是动量效应。
这个发现,让法玛非常不舒服。
因为动量效应,很难用风险来解释。一支股票涨得好,它的风险并没有系统性地增加。但它的未来回报,却显著更高。
这更像是行为偏差的证据——投资者反应不足,好消息没有被立刻充分定价,于是价格慢慢地继续上涨。
动量因子,成了因子投资世界里最有争议、也最有实战价值的因子之一。
---
**当下映射:A 股的因子世界**
说到这里,你可能会问:这些都是美国市场的研究,A 股有用吗?
有意思的是,A 股的因子有效性,和美股既有相似,也有不同。
比如,A 股的动量效应,在历史上并不像美股那么稳定,甚至在某些时期出现了反转效应——就是短期涨得好的股票,反而接下来跌。
而价值因子和规模因子,在 A 股历史上有过相当显著的表现,尤其是小市值效应,在二〇一五年之前,几乎是 A 股最强的因子之一。
但这些有效性,会随着市场结构的变化而变化。
这也是这本书后面要深入讨论的问题。
---
**本章小结**
好,我们来整理一下今天讲的脉络。
从马科维茨的组合理论,到夏普的 CAPM,人们曾经相信:市场风险(贝塔),是解释股票收益差异的唯一因子。
但数据不买账。
法玛和弗伦奇用将近三十年的美股数据证明:规模和价值,能解释 CAPM 解释不了的部分。
三因子模型由此诞生。
而"因子"这个概念,也从此成为量化投资的核心语言——它是一种对收益来源的拆解,是对"钱从哪里来"这个问题的系统性回答。
---
但是,知道因子存在,只是第一步。
真正的问题来了:这些因子,在历史数据里,到底表现如何?
价值因子 HML、规模因子 SMB、动量因子 MOM,还有后来加入的盈利因子和投资因子——它们各自的历史收益是多少?波动有多大?在哪些年份失效过?
数据,会告诉我们一个比理论更复杂、也更真实的故事。
下一章,我们就来看:经典五因子,数据怎么说?
第 2 章 · 经典五因子:数据怎么说
五个因子,听起来像五件武器。
但武器好不好用,得看数据说话。
价值、规模、动量、盈利、投资——这五个词背后,藏着几十年的市场真相。今天,我们来看看,数字到底支不支持这套理论。
上一章,我们讲了因子投资的理论地基。
从 CAPM 的单因子世界,到法玛和弗伦奇的三因子模型,核心逻辑只有一句话:超额收益,是风险的补偿。市场不是白给你钱的,你赚到的,是你承担了某种系统性风险。
今天,我们不聊理论了。
我们来看数据。
---
**先说一个场景。**
一九九二年。
法玛和弗伦奇发表了那篇改变投资界的论文。他们翻遍了美国股市几十年的数据,问了一个简单粗暴的问题:到底是什么,在驱动股票的长期回报?
结论震动了整个学界。
不是市场贝塔。
不是公司大小。
是两个东西同时在起作用——规模,和价值。
小公司,长期跑赢大公司。
低估值股票,长期跑赢高估值股票。
这两个发现,就是因子投资的起点。
---
**第一个因子:价值因子,HML**
HML,三个字母。
H 是高账面市值比,L 是低账面市值比,M 是减号。
翻译成人话就是:买便宜的,卖贵的,看谁赚得多。
石川等人在书中写道,价值因子的逻辑非常直观——便宜货往往被市场低估,而低估终究会被纠正。
但数据怎么说?
美国市场,从一九二六年到近年,HML 因子的年化超额收益大约在
**百分之四到五。**
听起来不多?
别急。这是每年,持续几十年,稳定跑出来的。
更关键的是,这个收益不是靠运气堆出来的。统计显著性很高。换句话说,这不是噪音,这是信号。
但等等——
有没有哪段时间,价值因子失效了?
有。
二零一零年代,成长股横扫一切。科技巨头的估值越来越高,但股价还在涨。价值投资者一边骂市场疯了,一边眼睁睁看着自己的组合跑输大盘。
这一段,很痛苦。
但书里的核心观点是:因子不是每年都有效,但它的有效性,经得起长周期的检验。短期失效,不代表逻辑破了,代表的是——你需要更长的耐心。
---
**第二个因子:规模因子,SMB**
SMB,小公司减大公司。
逻辑也很简单:小公司流动性差,信息透明度低,市场关注少,所以承担了更高的风险,理应获得更高的补偿。
数据支持吗?
美国市场,SMB 的长期年化超额收益大约是
**百分之二到三。**
比价值因子小一点。
但问题来了。
近年来,有很多研究开始质疑规模因子。他们说,如果你把数据里的"微型股"——那些极小极小的公司——剔除掉,规模效应就几乎消失了。
这是一个很重要的提醒。
因子,有时候是真实的风险补偿。有时候,是数据里的噪音和幸存者偏差。
怎么区分?
这就是为什么我们需要反复验证,在不同市场、不同时期、不同方法下,看它是不是还在。
---
**第三个因子:动量因子,MOM**
停一下。
动量因子,是这五个里面最"反直觉"的一个。
价值和规模,好歹有风险逻辑撑着。但动量是什么?
涨得好的股票,继续涨。跌得惨的股票,继续跌。
这听起来,像是在说废话。
但数据偏偏就是这样。
尤金·法玛(Eugene Fama)本人,最初对动量因子是抵触的。他是有效市场假说的旗手,他怎么可能接受"过去涨就会继续涨"这种说法?
但数字摆在面前,他也没法否认。
动量因子在美国市场的年化超额收益,大约是
**百分之八到十。**
这是五个因子里最高的。
但风险也最高。
动量策略有一个致命弱点——崩溃。
当市场发生剧烈反转,动量组合会在极短时间内遭受毁灭性损失。二零零九年三月,金融危机触底反弹,之前跌得最惨的股票突然暴涨,动量多头组合在几周内损失惨重。
石川等人在书中对此有清醒的表述,他的核心观点是:动量因子的高收益,是对"崩溃风险"的补偿。天下没有免费的午餐,高回报背后,是你必须承担的尾部风险。
---
**第四个因子:盈利因子,RMW**
RMW,盈利能力强的公司减去盈利能力弱的公司。
这个因子是法玛和弗伦奇在二零一五年扩展五因子模型时加进来的。
逻辑很直接:盈利好的公司,内在价值更高,长期回报更好。
但有意思的地方在哪里?
盈利因子,和价值因子,在某种程度上是"反着的"。
便宜的股票,往往盈利不好。盈利好的股票,往往估值不低。
所以当你同时持有价值因子和盈利因子,它们会互相"对冲"一部分。
这不是坏事。
这是分散化。
数据上,RMW 在美国市场的年化超额收益大约是
**百分之三到四。**
更重要的是,它和其他因子的相关性低,加进组合里,能显著改善风险调整后的收益。
---
**第五个因子:投资因子,CMA**
CMA,保守投资的公司减去激进投资的公司。
什么叫激进投资?就是一个公司不停地扩张,大量买资产,大量花钱。
市场的规律是:过度投资的公司,长期股价表现往往不好。
为什么?
有几种解释。
一种是风险解释:保守的公司风险更低,但市场对它们的定价也更低,所以反而有超额收益。
另一种是行为解释:管理层过度自信,乱投资,损害了股东利益,市场最终会惩罚这种行为。
哪种解释对?
老实说,学界还没有定论。
但数据是清楚的。CMA 在美国市场的年化超额收益大约是
**百分之三左右。**
---
**那么,A 股呢?**
说了这么多美国数据,A 股的情况怎么样?
这是一个非常值得关注的问题。
因为 A 股和美股,是两个性格完全不同的市场。
A 股散户比例更高,信息不对称更严重,市场情绪波动更剧烈。
结果是什么?
动量因子在 A 股,历史上有效性相对较弱——甚至有时候是"反转效应",也就是涨多了反而要跌。
价值因子在 A 股,有效,但波动更大,需要更长的持有周期。
规模因子在 A 股,历史上非常显著——小公司跑赢大公司的现象,在 A 股比美股更明显。
但这里有一个当下的映射需要注意。
二零二三年之后,A 股的市场结构在发生变化。机构化程度在提高,量化资金规模在扩大。当越来越多的人用同一套因子策略在市场里操作,这些因子还会继续有效吗?
这个问题,我们先在这里埋下一颗种子。
---
**五个因子,放在一起看**
让我们退后一步,把五个因子放在一起。
价值、规模、动量、盈利、投资。
它们有一个共同点:
在长周期数据里,都有统计显著的超额收益。
但它们也有一个共同的局限:
没有一个因子,能在所有时期都有效。
这就是为什么,单押一个因子,是危险的。
这就是为什么,多因子组合,才是实践的方向。
但组合怎么配?权重怎么定?A 股的因子有没有特殊性?调仓多久一次才合适?
数据给了我们信心,但实操还有一大堆问题没解决。
理论懂了,数据也看了——但真正要把这套东西用起来,你知道最大的拦路虎是什么吗?下一章,我们进入真实的投资组合构建,看看 Smart Beta 和多因子策略,在实战里到底长什么样。
第 3 章 · 组合实操:Smart Beta 与多因子配置
你已经知道了价值、规模、动量这些因子。但知道因子是一回事,真正用它们赚钱,是另一回事。调仓频率怎么定?多个因子怎么组合?A 股的因子有效吗?今天我们直接进实操。
上一章我们把五大经典因子拆开来看了个遍——价值、规模、动量、盈利、投资。数据摆在那里,长期来看,这些因子确实能带来超额收益。核心结论就一句话:因子有效,但不是每年都有效,你需要足够长的耐心和足够宽的视野。
今天,我们不聊数据了。
我们来聊怎么用。
---
**先回到一个具体的时间节点。**
二〇〇六年。
美国市场上出现了一批奇怪的 ETF。
它们不跟踪市值加权的标普五百指数,而是按照股息率、低波动、基本面指标来选股、加权。基金公司给它们起了一个好听的名字——
Smart Beta。
聪明贝塔。
言下之意,普通的市值加权指数是"笨贝塔",而这些按因子构建的指数,才是"聪明的"。
这个名字一出,整个被动投资圈都被点燃了。投资者问:我能不能既享受指数基金的低成本、高透明度,又能顺手赚到因子溢价?
答案是:理论上,可以。
但现实,远比理论复杂。
---
**Smart Beta 到底是什么?**
石川等人在书中的核心观点是:Smart Beta 本质上是因子投资的产品化。它把学术界发现的因子——价值、低波动、动量、质量——打包成可交易的指数产品,让普通投资者也能系统性地暴露在这些因子上。
听起来很美。
但停一下。
你有没有想过一个问题:同样是"价值因子 ETF",不同产品的表现可以差到天壤之别。
为什么?
因为"价值"这个词,背后藏着几十种不同的定义方式。
有的产品用市净率。有的用市盈率。有的用企业价值倍数。有的把这三个混在一起打分。
定义不同,选出来的股票池就不同。
股票池不同,收益就不同。
所以买 Smart Beta ETF 之前,你最需要做的一件事,不是看过去三年的收益率——
而是打开它的招募说明书,搞清楚它到底用的是哪个因子、怎么定义的。
这是第一个坑。
---
**然后我们来说第二个更大的问题:多因子怎么组合?**
假设你现在手上有五个因子:价值、规模、动量、盈利、低波动。
你会怎么用它们?
最直觉的做法是:每个因子单独建一个组合,然后把五个组合等权重加在一起。
这叫"因子组合混合法"。
简单。粗暴。有一定效果。
但石川在书中指出,还有一种更精细的做法——
多因子打分法。
具体是什么意思?
你不是先建五个单因子组合,再把它们加在一起。
而是对每一只股票,同时在五个维度上打分,算出一个综合得分,然后直接按综合得分选股。
这两种方法,区别大吗?
大。
举个例子。
假设有一只股票,价值得分极高,但动量得分极低。
用"因子组合混合法",这只股票会进价值因子组合,但不会进动量因子组合。两个组合加在一起,它的权重被稀释了,但还是有一定暴露。
用"多因子打分法",这只股票的综合得分可能只是中等,直接被排在中间梯队,拿不到高权重。
哪种更好?
没有绝对答案。
但多因子打分法的优势在于:它能筛选出在多个维度上同时表现优秀的股票,而不是在某一个维度上极端突出的股票。
这类股票,往往更稳健。
---
**说到 A 股,我们必须单独拿出来聊。**
因为 A 股的因子有效性,和美股是不一样的。
这一点,石川等人在书中有非常直接的表述:A 股市场有其独特的结构性特征,这些特征会显著影响因子的有效性。
具体说,有几个关键差异。
第一,A 股的动量因子,历史上表现并不稳定。
在美股,动量效应非常显著——过去半年涨得好的股票,未来半年大概率还会继续涨。
但在 A 股,这个规律要弱得多。
为什么?
A 股的散户比例远高于美股。散户喜欢追涨杀跌,但也喜欢"买跌",认为涨多了要跌、跌多了要涨。这种行为模式,会在一定程度上抵消动量效应。
第二,A 股的价值因子,在某些时期有效,在某些时期完全失灵。
二〇一五年那场牛市,你还记得吗?
市场几乎不看基本面,什么概念热就买什么。传统意义上的"低估值"股票,在那段时间大幅跑输市场。
价值因子,在极度情绪化的市场里,会暂时失效。
第三,A 股的规模因子,历史上非常显著——
小市值股票长期跑赢大市值股票。
但这背后,有一部分原因是 A 股的退市制度不完善,小市值公司被壳资源炒作,带来了一种"虚假的"规模溢价。
随着注册制推进、退市加速,这部分溢价正在被压缩。
所以在 A 股做因子投资,不能照搬美股的经验。
你需要重新验证,重新校准。
---
**现在我们来说一个很多人忽略的实操问题:调仓频率。**
你建好了一个多因子组合。
多久换一次仓?
每天?每周?每月?每季度?
直觉上,你可能觉得换得越勤,越能跟上因子信号的变化,收益越好。
停。
这个直觉是错的。
石川等人在书中明确指出:调仓频率越高,交易成本越高,对净收益的侵蚀就越严重。
A 股的交易成本,包括印花税、佣金、冲击成本,加在一起,对于小市值股票来说,单次换仓的成本可以达到百分之零点五甚至更高。
百分之零点五。
听起来不多?
一年换仓十二次,双边来回,成本可能吃掉你百分之十二的收益。
这已经是很多因子年化超额收益的全部了。
所以,调仓频率不是越高越好。
大多数实证研究表明,对于基于基本面的价值、盈利类因子,月度或季度调仓是比较合理的频率。
对于动量类因子,可以适当提高频率,但也不宜超过月度。
这不是精确的公式,但是一个有用的经验范围。
---
**最后,我们来说一个更深层的问题:容量与拥挤度。**
这是很多散户投资者没想到过的问题。
因子策略,有没有"装不下钱"的问题?
答案是:有。
而且非常严重。
想象一下。
某个因子策略在过去十年的回测中表现极好。于是越来越多的机构开始用它。大家都在买同样的股票,都在同样的时间点买入、卖出。
会发生什么?
买入的时候,大家一起把价格推高,导致买入成本上升。
卖出的时候,大家一起抛售,导致卖出价格下跌,冲击成本急剧扩大。
这就叫因子拥挤。
石川等人在书中对此有深刻的警示:当某个因子策略被过多资金追逐时,它的超额收益会被侵蚀,极端情况下甚至会出现"因子崩溃"——所有持有这个因子的组合同时大幅亏损。
二〇〇七年八月。
美国量化基金圈发生了一件著名的事件,后来被称为"宽客危机"。
那一周,几乎所有量化多因子基金同时出现了巨大亏损。
原因就是:太多基金持有了太相似的因子组合。当其中一家基金因为流动性压力开始强制平仓,引发了连锁反应,所有人同时踩踏出逃。
这不是理论。
这是真实发生过的历史。
所以,容量是因子策略的天花板。
当你管理的资金体量足够大,你必须考虑:你的买卖行为本身,会不会影响市场价格?你的策略,还有多少超额收益的空间?
对于普通个人投资者来说,这个问题不那么紧迫。
但对于想要认真做量化投资的人,这是绕不开的现实约束。
---
**好,我们来做个小结。**
今天这一章,我们从理论走进了实操。
Smart Beta 是因子投资的产品化,但你要看清楚它用的是哪个因子、怎么定义的。
多因子打分法,能筛出在多个维度同时优秀的股票,比简单叠加更精细。
A 股有自己的因子逻辑,不能照搬海外经验,需要独立验证。
调仓频率要和交易成本做权衡,频繁换仓会把超额收益吃光。
容量和拥挤度,是因子策略的隐形天花板。
这些,是把因子从论文变成真金白银必须面对的问题。
但是——
等等。
你有没有想过一个更根本的问题?
我们讲了这么多因子,这么多策略,这么多数据。
这些数据,是真的吗?
回测出来的收益,是真实可以拿到手的收益吗?
还是说,我们只是在用历史数据,讲一个自己想听的故事?
下一章,我们要进入这本书最让人不安的部分——
回测过拟合、数据挖掘偏差、因子衰减。
量化投资的边界,到底在哪里?
你准备好了吗?
第 4 章 · 陷阱与边界:回测过拟合与因子衰减
你有没有想过——一个在历史数据上完美运行的策略,上线第一天就开始亏钱?这不是运气问题,也不是市场变了。很可能,从一开始,那个策略就是假的。今天这一章,我们来聊量化投资最危险的那道坎。
上一章我们把因子投资的实操层面走了一遍。
Smart Beta、多因子打分、A 股的特殊性、调仓频率……
核心结论是:因子有效,但要落地,细节决定生死。
今天,我们来收尾。
不聊怎么赚钱了。
我们来聊——怎么避免被坑。
---
**先还原一个场景。**
二〇〇七年。
华尔街。
一家量化对冲基金的研究员,盯着屏幕上的回测报告。
年化收益,三十二个百分点。
最大回撤,不超过八个百分点。
夏普比率,两点一。
他把报告递给基金经理,说:这个策略跑了十五年的历史数据,非常稳。
基金经理点点头。
上线。
然后——
二〇〇七年八月,量化危机爆发。
那一周,几乎所有用类似逻辑构建的量化基金,同时巨亏。
有的单周跌了百分之二十。
为什么?
策略没问题。
逻辑没问题。
但有一件事,他们忽略了。
---
**这件事,叫做回测过拟合。**
什么是回测过拟合?
简单说:你用历史数据找规律,找着找着,找出了一个"假规律"。
它在历史数据上表现完美,因为它本来就是从这段历史数据里"挖"出来的。
你把数据挖了一遍又一遍,换参数、换周期、换组合方式,直到找到一个看起来很好的结果。
然后你以为这是"发现"。
其实,你只是在做数据拟合。
石川在书中写道,这个问题的本质是:研究者在不知不觉中,把历史数据的"噪声"当成了"信号"。
停。
这句话要细品。
噪声,是随机的波动。
信号,是真实存在的规律。
历史数据里,两者混在一起。
你的模型越复杂,参数越多,它就越能"解释"历史——但它解释的,很可能是噪声。
等到真实市场来了,噪声消失了,你的策略就垮了。
---
**有多严重?**
美国学者坎贝尔·哈维做过一个统计。
金融学术期刊上发表的因子研究,数量超过——
三百个。
三百个因子。
每一个,在论文里都有统计显著性支撑。
但他的核心观点是:其中相当大比例,可能根本经不起样本外检验。
为什么?
因为发表偏差。
做研究的人,找到了有效的因子,就发表。
找到了无效的因子,就不发表。
于是你看到的,全是"有效"的。
这就像一个赌场,只把赢钱的客人推出来做广告。
你看到的,全是赢家。
---
**这在量化圈有个专门的名字:数据挖掘偏差。**
英文叫 Data Snooping Bias。
石川在书中特别强调,这是量化投资领域最隐蔽、也最致命的陷阱之一。
为什么隐蔽?
因为你自己都不知道自己在挖数据。
你以为你在做严谨的研究。
你有逻辑、有假设、有统计检验。
但如果你在同一批数据上反复测试,哪怕每次都"有逻辑",最终结论的可靠性也在下降。
统计学有个概念叫"多重检验"。
你做一次检验,误报概率是百分之五。
你做二十次检验,至少有一次误报的概率——
超过六成。
六成。
所以,当你看到一个"显著有效"的因子,第一个问题不是"它为什么有效",而是——
它被测试过多少次?
---
**好,假设你的因子是真实的。**
假设它经过了严格的样本外验证。
假设它不是数据挖掘的产物。
然后呢?
然后你还有另一个问题。
叫做因子拥挤。
---
**再还原一个场景。**
二〇一五年到二〇一八年。
A 股市场。
量化投资开始大规模兴起。
越来越多的私募基金、公募基金,开始用同样的因子——
低估值、高动量、小市值。
大家都在用。
大家都在买同样的股票。
这些股票的价格,被推高了。
因子还有效吗?
短期看,更有效了——因为更多人买,价格涨得更快。
但这只是幻觉。
等到某一天,市场风格切换,或者某个大型机构开始减仓——
所有用同样因子的策略,同时触发卖出信号。
同时卖。
流动性枯竭。
价格暴跌。
这就是因子拥挤的崩塌方式。
不是慢慢失效,而是——
突然断裂。
---
**这个场景,和二〇〇七年华尔街的量化危机,本质上是一回事。**
太多人用同样的逻辑,同样的因子,同样的进出场规则。
市场一旦异动,所有人同时踩踏。
书中的核心观点是:因子的有效性,不是一个静态的存在,而是动态的,会随着使用它的资金规模变化。
当一个因子被发现、被广泛使用,它的超额收益就开始被侵蚀。
这不是阴谋,这是市场竞争的自然结果。
你发现了一个金矿。
你挖。
别人也发现了。
也挖。
金矿挖空了。
超额收益,消失了。
---
**那因子轮动呢?**
有人说:没关系,因子会轮动。
价值因子失效的时候,动量因子有效。
动量因子失效的时候,质量因子有效。
我只要跟着轮,不就行了?
听起来很聪明。
但等等。
你怎么知道,现在轮到哪个因子?
如果你用历史数据来判断因子轮动规律——
你又回到了回测过拟合的陷阱里。
因子轮动本身,也需要预测。
而预测,是量化投资里最难的事。
石川在书中对此相当克制,他的态度是:因子轮动有其逻辑,但对轮动时机的预测,目前没有可靠的方法。
克制。
这两个字,我觉得是整本书最值钱的地方。
---
**来看一个当下的映射案例。**
二〇二三年,A 股市场。
有一批量化基金,用的是超高频的小市值因子策略。
在某些阶段,年化收益非常亮眼。
但二〇二四年初,监管收紧,市场流动性结构变化,小市值股票集体暴跌。
那些策略,单周最大回撤超过二十个百分点。
很多投资者不理解:明明历史数据这么好,为什么突然就不行了?
答案就在这本书里。
第一,策略可能本身就存在过拟合——在特定市场结构下"挖"出来的,换个环境就失效。
第二,因子拥挤——太多资金用同样逻辑,同样的崩塌方式。
第三,容量限制——策略的超额收益,和它能承载的资金规模,是反比关系。规模越大,越难赚。
这不是某家基金的失误。
这是量化投资的结构性边界。
---
**那量化投资,到底有没有用?**
有用。
但你要知道它的边界在哪里。
边界一:回测不等于未来。
任何策略,都要做样本外验证。
不是用同一批数据的后半段,而是真正的"未来数据"——也就是实盘检验。
边界二:因子有效性是动态的。
今天有效,不代表明天有效。
规模越大,超额收益越难维持。
边界三:轮动难以预测。
不要试图精确踩点。
分散配置多个因子,才是更稳健的做法。
边界四:市场不是静止的实验室。
你的策略进入市场,市场就会改变。
这是量化投资和物理学最大的不同——
你观测它,它就变了。
---
**回头看这本书。**
我们从第一章开始,从 CAPM 单因子讲起,到法玛和弗伦奇的三因子模型,搞清楚了"因子"这个概念到底是什么。
第二章,我们把五大经典因子一一拆解,用数据说话——价值、规模、动量、盈利、投资,每一个背后都有真实的风险溢价逻辑。
第三章,我们落到实操层面,Smart Beta 怎么选,多因子怎么配,A 股有哪些特殊性,容量和拥挤度怎么考量。
第四章,也就是今天,我们来到了这本书最冷静的地方——
陷阱在哪里,边界在哪里。
作者真正想告诉我们的,不是"因子投资包赚不赔",而是:
这是一套有逻辑、有证据支撑的方法论。
但它不是魔法。
它需要你理解它的局限,尊重它的边界,然后在这个框架内,做出更理性的决策。
合上这本书,带走的不是一个策略,而是一种思维方式:
用证据说话,但永远对证据保持怀疑。
用证据说话,但永远对证据保持怀疑。—— 石川等,因子投资:方法与实践,核心方法论总结
关于入门系列
石川是国内量化投资领域的研究者与实践者,长期深耕多因子模型的学术梳理与本土化应用。这本书是中文世界第一本系统性讲解多因子投资的实操教材,填补了「学术论文看不懂、市面上的书又太浅」之间的空白。它出版后迅速成为国内量化从业者的案头参考,也被不少高校金融课程列为延伸读物。时至今日,随着A股机构化程度持续提升、因子策略愈发普及,这本书的参考价值反而比出版时更高。
查看入门系列全部投资笔记 →本篇 1 句最值得抄进笔记的话
- 用证据说话,但永远对证据保持怀疑。—— 石川等,因子投资:方法与实践,核心方法论总结