某派
量化投资入门系列
下载 App
因子投资:方法与实践 封面

因子投资:方法与实践

流派 · 量化投资
大师 · 入门系列
听 56 分钟解读 · 读约 11,741 字精读
在某派 App 听音频解读
一句话定位 中文世界第一本系统讲多因子投资的实操教材

这篇讲什么

中文世界第一本系统讲多因子投资的实操教材。从学术研究到 A 股实证,把因子从 Fama-French 三因子讲到 Smart Beta,既严谨也接地气。

一九九二年,两个经济学家发表了一篇论文,把此前四十年的主流投资理论打了个措手不及。他们用近三十年的真实数据说明:你以为能解释股票涨跌的那个公式,其实解释不了什么。这件事的影响远不止学术圈——它直接催生了今天规模以万亿美元计的「因子投资」行业,从量化基金到你在券商App里看到的Smart Beta ETF,背后都是同一套逻辑。但大多数人对这套逻辑的了解,停留在「听说过」三个字。这本书想做的事,是把这套逻辑从头捋清楚:因子到底是什么?它为什么能赚钱,赚的是谁的钱?在A股这个和美股气质截然不同的市场里,它还管用吗?什么时候会失效?读完你会发现,因子投资既不是什么神秘的黑箱,也不是稳赚不赔的公式——它是一种有边界、有代价、需要真正理解才能用的思维方式。

谁该读这一篇

试听第一章音频解读

第 1 章 · 什么是因子:从 CAPM 到 Fama-French
知性男声 · 约 14 分钟
App 内还有 220+ 大师案例都已配音频解读 App 内继续听 →

精读全文

第 1 章 · 什么是因子:从 CAPM 到 Fama-French

如果有人告诉你,股市里的赚钱机会,其实是有规律可循的——你信吗?几十年来,全球最聪明的一批人,用数据、用模型、用几十年的历史去验证这件事。他们找到的答案,叫做"因子"。

想象一个问题。

你买了一支股票,赚了钱。

这钱,是你运气好?还是你承担了某种风险,市场给你的补偿?

听起来像哲学题。但这个问题,在过去七十年里,让无数经济学家、数学家、基金经理争得头破血流。

而这本书,就是要把这场争论的答案,清清楚楚摆在你面前。

---

**全书导览**

这本书叫《因子投资:方法与实践》,作者是石川等人。

这本书我们会分四章来读。

第一章,我们从最基础的问题切入——什么是因子?从最早的单因子模型 CAPM,到后来颠覆它的法玛-弗伦奇三因子模型,我们搞清楚"因子"这个词到底在说什么。

第二章,我们深入五个经典因子,看数据怎么说。价值、规模、动量、盈利、投资——每一个背后,都有真实的历史数据在撑腰。

第三章,我们走到实操层面。聪明贝塔 ETF、多因子打分、A 股的特殊性——因子怎么真正落地成一个投资组合?

第四章,我们踩刹车。回测陷阱、数据挖掘偏差、因子拥挤——因子投资的边界在哪里?什么情况下它会失效?

好,现在我们从第一章开始。

---

**故事从一九五二年说起**

那一年,一个二十五岁的年轻人,坐在芝加哥大学图书馆里,读到一篇改变他一生的论文。

这个年轻人叫哈里·马科维茨。那篇论文,是他自己写的。

他提出了一个在当时看来几乎是异端的想法:投资不能只看收益,必须同时看风险。而风险,可以用波动率来衡量。更重要的是,把不同资产组合在一起,可以在不降低收益的前提下,降低整体风险。

这就是现代投资组合理论的起点。

但马科维茨的理论有一个问题——太复杂了。他的模型需要计算每两支股票之间的相关性。如果你有一百支股票,你需要计算将近五千个相关系数。在那个没有电脑的年代,根本没法用。

---

**威廉·夏普的简化**

十年后,一九六四年。

威廉·夏普站出来说:我来简化它。

他的核心想法是这样的——与其追踪每两支股票之间的关系,不如找一个"公共驱动力"。这个公共驱动力,就是整个市场的涨跌。

他的逻辑是:一支股票的价格波动,可以分成两部分。

第一部分,跟市场一起动。市场涨,它涨;市场跌,它跌。这部分叫"系统性风险",是无法通过分散投资消除的。

第二部分,是它自己独特的波动。这部分叫"非系统性风险",可以通过买很多支股票来对冲掉。

夏普说:既然非系统性风险可以消除,市场就不应该给你补偿。真正应该被补偿的,只有系统性风险。

这个系统性风险,用一个希腊字母来衡量——

贝塔。

---

**CAPM:一个优雅的世界**

夏普的模型,叫资本资产定价模型,简称 CAPM。

它的逻辑极其简洁:一支股票的预期收益,等于无风险利率,加上贝塔乘以市场风险溢价。

用大白话说就是——你承担的市场风险越高,你的预期回报就应该越高。

贝塔等于一,就是跟市场同步。贝塔等于二,市场涨百分之十,你涨百分之二十;市场跌百分之十,你跌百分之二十。

这个模型,漂亮。优雅。简单。

一九九〇年,威廉·夏普因此拿到了诺贝尔经济学奖。

但是——

等等。

---

**数据打脸**

如果 CAPM 是对的,那么世界上应该只有一个变量能解释股票收益的差异:贝塔。

高贝塔的股票,长期表现应该更好。

你猜数据怎么说?

不对。

从二十世纪六十年代开始,就有研究者发现,高贝塔的股票,长期表现并没有显著优于低贝塔的股票。

更麻烦的是,有人发现了一些 CAPM 完全解释不了的现象。

比如,小公司的股票,长期回报高于大公司。

比如,低市净率的股票(也就是"便宜"的股票),长期回报高于高市净率的股票。

CAPM 对这些现象的解释是:没有解释。

这叫"异象"。

---

**法玛和弗伦奇出场**

一九九二年。

尤金·法玛和肯尼斯·弗伦奇发表了一篇论文。

这篇论文,在学术界引发了地震。

他们用美国股市从一九六三年到一九九〇年,将近三十年的数据,系统地检验了 CAPM。

结论?

石川在书中的核心观点是:贝塔与股票截面收益之间,几乎没有显著的正相关关系。

换句话说——

CAPM,在数据面前,败了。

但法玛和弗伦奇没有止步于此。他们接着问:那什么变量,能更好地解释股票收益的差异?

他们找到了两个。

第一个:规模。小公司股票,系统性地跑赢大公司股票。

第二个:价值。低市净率股票(价值股),系统性地跑赢高市净率股票(成长股)。

---

**三因子模型诞生**

法玛和弗伦奇把这两个变量,加上原来的市场因子,合在一起,构建了一个新模型。

三个因子。

第一,市场因子:整体市场相对无风险利率的超额收益。

第二,规模因子 SMB:小公司股票组合,减去大公司股票组合的收益差。SMB 是英文"小减大"的缩写。

第三,价值因子 HML:高市净率比率股票组合,减去低市净率比率股票组合的收益差。HML 是英文"高减低"的缩写。

这就是法玛-弗伦奇三因子模型。

它对股票收益差异的解释力,远超 CAPM。

---

**但"因子"到底是什么?**

好,到这里,你可能已经有点晕了。

让我们停下来,把最关键的概念说清楚。

因子,到底是什么?

石川在书中写道:因子是能够系统性地解释一组资产收益差异的、可量化的特征变量。

注意这里的每一个词。

"系统性"——不是偶尔,是长期、稳定、跨市场地存在。

"解释收益差异"——不是解释某一支股票的绝对涨跌,而是解释为什么这组股票跑赢那组股票。

"可量化的特征变量"——必须能用数据算出来,不能是"感觉这公司不错"。

---

**因子背后的两种逻辑**

这里有一个根本性的争论,至今没有完全平息。

为什么这些因子会带来超额收益?

有两种解释。

第一种:风险补偿。

这是法玛自己的立场。他认为,价值股之所以长期跑赢,是因为它们更危险。便宜的公司,往往是陷入困境的公司。你买它,承担了更大的财务风险。市场给你的高回报,是对这个风险的补偿。

第二种:行为偏差。

另一批学者认为,这跟风险没关系。是因为投资者不理性。大家系统性地高估成长股,低估价值股,导致价值股被低估,未来回报更高。

这两种解释,对投资者的含义完全不同。

如果是风险补偿——那你得问自己:我愿意承担这个风险吗?

如果是行为偏差——那你得问自己:这个偏差会永远存在吗?还是有一天会被套利掉?

---

**动量因子:法玛最不愿意承认的那个**

说到这里,必须提一个因子。

动量。

一九九三年,马克·卡哈特等人发现了一个现象:过去三到十二个月涨得好的股票,接下来三到十二个月,往往还会继续涨。

这就是动量效应。

这个发现,让法玛非常不舒服。

因为动量效应,很难用风险来解释。一支股票涨得好,它的风险并没有系统性地增加。但它的未来回报,却显著更高。

这更像是行为偏差的证据——投资者反应不足,好消息没有被立刻充分定价,于是价格慢慢地继续上涨。

动量因子,成了因子投资世界里最有争议、也最有实战价值的因子之一。

---

**当下映射:A 股的因子世界**

说到这里,你可能会问:这些都是美国市场的研究,A 股有用吗?

有意思的是,A 股的因子有效性,和美股既有相似,也有不同。

比如,A 股的动量效应,在历史上并不像美股那么稳定,甚至在某些时期出现了反转效应——就是短期涨得好的股票,反而接下来跌。

而价值因子和规模因子,在 A 股历史上有过相当显著的表现,尤其是小市值效应,在二〇一五年之前,几乎是 A 股最强的因子之一。

但这些有效性,会随着市场结构的变化而变化。

这也是这本书后面要深入讨论的问题。

---

**本章小结**

好,我们来整理一下今天讲的脉络。

从马科维茨的组合理论,到夏普的 CAPM,人们曾经相信:市场风险(贝塔),是解释股票收益差异的唯一因子。

但数据不买账。

法玛和弗伦奇用将近三十年的美股数据证明:规模和价值,能解释 CAPM 解释不了的部分。

三因子模型由此诞生。

而"因子"这个概念,也从此成为量化投资的核心语言——它是一种对收益来源的拆解,是对"钱从哪里来"这个问题的系统性回答。

---

但是,知道因子存在,只是第一步。

真正的问题来了:这些因子,在历史数据里,到底表现如何?

价值因子 HML、规模因子 SMB、动量因子 MOM,还有后来加入的盈利因子和投资因子——它们各自的历史收益是多少?波动有多大?在哪些年份失效过?

数据,会告诉我们一个比理论更复杂、也更真实的故事。

下一章,我们就来看:经典五因子,数据怎么说?

第 2 章 · 经典五因子:数据怎么说

五个因子,听起来像五件武器。

但武器好不好用,得看数据说话。

价值、规模、动量、盈利、投资——这五个词背后,藏着几十年的市场真相。今天,我们来看看,数字到底支不支持这套理论。

上一章,我们讲了因子投资的理论地基。

从 CAPM 的单因子世界,到法玛和弗伦奇的三因子模型,核心逻辑只有一句话:超额收益,是风险的补偿。市场不是白给你钱的,你赚到的,是你承担了某种系统性风险。

今天,我们不聊理论了。

我们来看数据。

---

**先说一个场景。**

一九九二年。

法玛和弗伦奇发表了那篇改变投资界的论文。他们翻遍了美国股市几十年的数据,问了一个简单粗暴的问题:到底是什么,在驱动股票的长期回报?

结论震动了整个学界。

不是市场贝塔。

不是公司大小。

是两个东西同时在起作用——规模,和价值。

小公司,长期跑赢大公司。

低估值股票,长期跑赢高估值股票。

这两个发现,就是因子投资的起点。

---

**第一个因子:价值因子,HML**

HML,三个字母。

H 是高账面市值比,L 是低账面市值比,M 是减号。

翻译成人话就是:买便宜的,卖贵的,看谁赚得多。

石川等人在书中写道,价值因子的逻辑非常直观——便宜货往往被市场低估,而低估终究会被纠正。

但数据怎么说?

美国市场,从一九二六年到近年,HML 因子的年化超额收益大约在

**百分之四到五。**

听起来不多?

别急。这是每年,持续几十年,稳定跑出来的。

更关键的是,这个收益不是靠运气堆出来的。统计显著性很高。换句话说,这不是噪音,这是信号。

但等等——

有没有哪段时间,价值因子失效了?

有。

二零一零年代,成长股横扫一切。科技巨头的估值越来越高,但股价还在涨。价值投资者一边骂市场疯了,一边眼睁睁看着自己的组合跑输大盘。

这一段,很痛苦。

但书里的核心观点是:因子不是每年都有效,但它的有效性,经得起长周期的检验。短期失效,不代表逻辑破了,代表的是——你需要更长的耐心。

---

**第二个因子:规模因子,SMB**

SMB,小公司减大公司。

逻辑也很简单:小公司流动性差,信息透明度低,市场关注少,所以承担了更高的风险,理应获得更高的补偿。

数据支持吗?

美国市场,SMB 的长期年化超额收益大约是

**百分之二到三。**

比价值因子小一点。

但问题来了。

近年来,有很多研究开始质疑规模因子。他们说,如果你把数据里的"微型股"——那些极小极小的公司——剔除掉,规模效应就几乎消失了。

这是一个很重要的提醒。

因子,有时候是真实的风险补偿。有时候,是数据里的噪音和幸存者偏差。

怎么区分?

这就是为什么我们需要反复验证,在不同市场、不同时期、不同方法下,看它是不是还在。

---

**第三个因子:动量因子,MOM**

停一下。

动量因子,是这五个里面最"反直觉"的一个。

价值和规模,好歹有风险逻辑撑着。但动量是什么?

涨得好的股票,继续涨。跌得惨的股票,继续跌。

这听起来,像是在说废话。

但数据偏偏就是这样。

尤金·法玛(Eugene Fama)本人,最初对动量因子是抵触的。他是有效市场假说的旗手,他怎么可能接受"过去涨就会继续涨"这种说法?

但数字摆在面前,他也没法否认。

动量因子在美国市场的年化超额收益,大约是

**百分之八到十。**

这是五个因子里最高的。

但风险也最高。

动量策略有一个致命弱点——崩溃。

当市场发生剧烈反转,动量组合会在极短时间内遭受毁灭性损失。二零零九年三月,金融危机触底反弹,之前跌得最惨的股票突然暴涨,动量多头组合在几周内损失惨重。

石川等人在书中对此有清醒的表述,他的核心观点是:动量因子的高收益,是对"崩溃风险"的补偿。天下没有免费的午餐,高回报背后,是你必须承担的尾部风险。

---

**第四个因子:盈利因子,RMW**

RMW,盈利能力强的公司减去盈利能力弱的公司。

这个因子是法玛和弗伦奇在二零一五年扩展五因子模型时加进来的。

逻辑很直接:盈利好的公司,内在价值更高,长期回报更好。

但有意思的地方在哪里?

盈利因子,和价值因子,在某种程度上是"反着的"。

便宜的股票,往往盈利不好。盈利好的股票,往往估值不低。

所以当你同时持有价值因子和盈利因子,它们会互相"对冲"一部分。

这不是坏事。

这是分散化。

数据上,RMW 在美国市场的年化超额收益大约是

**百分之三到四。**

更重要的是,它和其他因子的相关性低,加进组合里,能显著改善风险调整后的收益。

---

**第五个因子:投资因子,CMA**

CMA,保守投资的公司减去激进投资的公司。

什么叫激进投资?就是一个公司不停地扩张,大量买资产,大量花钱。

市场的规律是:过度投资的公司,长期股价表现往往不好。

为什么?

有几种解释。

一种是风险解释:保守的公司风险更低,但市场对它们的定价也更低,所以反而有超额收益。

另一种是行为解释:管理层过度自信,乱投资,损害了股东利益,市场最终会惩罚这种行为。

哪种解释对?

老实说,学界还没有定论。

但数据是清楚的。CMA 在美国市场的年化超额收益大约是

**百分之三左右。**

---

**那么,A 股呢?**

说了这么多美国数据,A 股的情况怎么样?

这是一个非常值得关注的问题。

因为 A 股和美股,是两个性格完全不同的市场。

A 股散户比例更高,信息不对称更严重,市场情绪波动更剧烈。

结果是什么?

动量因子在 A 股,历史上有效性相对较弱——甚至有时候是"反转效应",也就是涨多了反而要跌。

价值因子在 A 股,有效,但波动更大,需要更长的持有周期。

规模因子在 A 股,历史上非常显著——小公司跑赢大公司的现象,在 A 股比美股更明显。

但这里有一个当下的映射需要注意。

二零二三年之后,A 股的市场结构在发生变化。机构化程度在提高,量化资金规模在扩大。当越来越多的人用同一套因子策略在市场里操作,这些因子还会继续有效吗?

这个问题,我们先在这里埋下一颗种子。

---

**五个因子,放在一起看**

让我们退后一步,把五个因子放在一起。

价值、规模、动量、盈利、投资。

它们有一个共同点:

在长周期数据里,都有统计显著的超额收益。

但它们也有一个共同的局限:

没有一个因子,能在所有时期都有效。

这就是为什么,单押一个因子,是危险的。

这就是为什么,多因子组合,才是实践的方向。

但组合怎么配?权重怎么定?A 股的因子有没有特殊性?调仓多久一次才合适?

数据给了我们信心,但实操还有一大堆问题没解决。

理论懂了,数据也看了——但真正要把这套东西用起来,你知道最大的拦路虎是什么吗?下一章,我们进入真实的投资组合构建,看看 Smart Beta 和多因子策略,在实战里到底长什么样。

第 3 章 · 组合实操:Smart Beta 与多因子配置

你已经知道了价值、规模、动量这些因子。但知道因子是一回事,真正用它们赚钱,是另一回事。调仓频率怎么定?多个因子怎么组合?A 股的因子有效吗?今天我们直接进实操。

上一章我们把五大经典因子拆开来看了个遍——价值、规模、动量、盈利、投资。数据摆在那里,长期来看,这些因子确实能带来超额收益。核心结论就一句话:因子有效,但不是每年都有效,你需要足够长的耐心和足够宽的视野。

今天,我们不聊数据了。

我们来聊怎么用。

---

**先回到一个具体的时间节点。**

二〇〇六年。

美国市场上出现了一批奇怪的 ETF。

它们不跟踪市值加权的标普五百指数,而是按照股息率、低波动、基本面指标来选股、加权。基金公司给它们起了一个好听的名字——

Smart Beta。

聪明贝塔。

言下之意,普通的市值加权指数是"笨贝塔",而这些按因子构建的指数,才是"聪明的"。

这个名字一出,整个被动投资圈都被点燃了。投资者问:我能不能既享受指数基金的低成本、高透明度,又能顺手赚到因子溢价?

答案是:理论上,可以。

但现实,远比理论复杂。

---

**Smart Beta 到底是什么?**

石川等人在书中的核心观点是:Smart Beta 本质上是因子投资的产品化。它把学术界发现的因子——价值、低波动、动量、质量——打包成可交易的指数产品,让普通投资者也能系统性地暴露在这些因子上。

听起来很美。

但停一下。

你有没有想过一个问题:同样是"价值因子 ETF",不同产品的表现可以差到天壤之别。

为什么?

因为"价值"这个词,背后藏着几十种不同的定义方式。

有的产品用市净率。有的用市盈率。有的用企业价值倍数。有的把这三个混在一起打分。

定义不同,选出来的股票池就不同。

股票池不同,收益就不同。

所以买 Smart Beta ETF 之前,你最需要做的一件事,不是看过去三年的收益率——

而是打开它的招募说明书,搞清楚它到底用的是哪个因子、怎么定义的。

这是第一个坑。

---

**然后我们来说第二个更大的问题:多因子怎么组合?**

假设你现在手上有五个因子:价值、规模、动量、盈利、低波动。

你会怎么用它们?

最直觉的做法是:每个因子单独建一个组合,然后把五个组合等权重加在一起。

这叫"因子组合混合法"。

简单。粗暴。有一定效果。

但石川在书中指出,还有一种更精细的做法——

多因子打分法。

具体是什么意思?

你不是先建五个单因子组合,再把它们加在一起。

而是对每一只股票,同时在五个维度上打分,算出一个综合得分,然后直接按综合得分选股。

这两种方法,区别大吗?

大。

举个例子。

假设有一只股票,价值得分极高,但动量得分极低。

用"因子组合混合法",这只股票会进价值因子组合,但不会进动量因子组合。两个组合加在一起,它的权重被稀释了,但还是有一定暴露。

用"多因子打分法",这只股票的综合得分可能只是中等,直接被排在中间梯队,拿不到高权重。

哪种更好?

没有绝对答案。

但多因子打分法的优势在于:它能筛选出在多个维度上同时表现优秀的股票,而不是在某一个维度上极端突出的股票。

这类股票,往往更稳健。

---

**说到 A 股,我们必须单独拿出来聊。**

因为 A 股的因子有效性,和美股是不一样的。

这一点,石川等人在书中有非常直接的表述:A 股市场有其独特的结构性特征,这些特征会显著影响因子的有效性。

具体说,有几个关键差异。

第一,A 股的动量因子,历史上表现并不稳定。

在美股,动量效应非常显著——过去半年涨得好的股票,未来半年大概率还会继续涨。

但在 A 股,这个规律要弱得多。

为什么?

A 股的散户比例远高于美股。散户喜欢追涨杀跌,但也喜欢"买跌",认为涨多了要跌、跌多了要涨。这种行为模式,会在一定程度上抵消动量效应。

第二,A 股的价值因子,在某些时期有效,在某些时期完全失灵。

二〇一五年那场牛市,你还记得吗?

市场几乎不看基本面,什么概念热就买什么。传统意义上的"低估值"股票,在那段时间大幅跑输市场。

价值因子,在极度情绪化的市场里,会暂时失效。

第三,A 股的规模因子,历史上非常显著——

小市值股票长期跑赢大市值股票。

但这背后,有一部分原因是 A 股的退市制度不完善,小市值公司被壳资源炒作,带来了一种"虚假的"规模溢价。

随着注册制推进、退市加速,这部分溢价正在被压缩。

所以在 A 股做因子投资,不能照搬美股的经验。

你需要重新验证,重新校准。

---

**现在我们来说一个很多人忽略的实操问题:调仓频率。**

你建好了一个多因子组合。

多久换一次仓?

每天?每周?每月?每季度?

直觉上,你可能觉得换得越勤,越能跟上因子信号的变化,收益越好。

停。

这个直觉是错的。

石川等人在书中明确指出:调仓频率越高,交易成本越高,对净收益的侵蚀就越严重。

A 股的交易成本,包括印花税、佣金、冲击成本,加在一起,对于小市值股票来说,单次换仓的成本可以达到百分之零点五甚至更高。

百分之零点五。

听起来不多?

一年换仓十二次,双边来回,成本可能吃掉你百分之十二的收益。

这已经是很多因子年化超额收益的全部了。

所以,调仓频率不是越高越好。

大多数实证研究表明,对于基于基本面的价值、盈利类因子,月度或季度调仓是比较合理的频率。

对于动量类因子,可以适当提高频率,但也不宜超过月度。

这不是精确的公式,但是一个有用的经验范围。

---

**最后,我们来说一个更深层的问题:容量与拥挤度。**

这是很多散户投资者没想到过的问题。

因子策略,有没有"装不下钱"的问题?

答案是:有。

而且非常严重。

想象一下。

某个因子策略在过去十年的回测中表现极好。于是越来越多的机构开始用它。大家都在买同样的股票,都在同样的时间点买入、卖出。

会发生什么?

买入的时候,大家一起把价格推高,导致买入成本上升。

卖出的时候,大家一起抛售,导致卖出价格下跌,冲击成本急剧扩大。

这就叫因子拥挤。

石川等人在书中对此有深刻的警示:当某个因子策略被过多资金追逐时,它的超额收益会被侵蚀,极端情况下甚至会出现"因子崩溃"——所有持有这个因子的组合同时大幅亏损。

二〇〇七年八月。

美国量化基金圈发生了一件著名的事件,后来被称为"宽客危机"。

那一周,几乎所有量化多因子基金同时出现了巨大亏损。

原因就是:太多基金持有了太相似的因子组合。当其中一家基金因为流动性压力开始强制平仓,引发了连锁反应,所有人同时踩踏出逃。

这不是理论。

这是真实发生过的历史。

所以,容量是因子策略的天花板。

当你管理的资金体量足够大,你必须考虑:你的买卖行为本身,会不会影响市场价格?你的策略,还有多少超额收益的空间?

对于普通个人投资者来说,这个问题不那么紧迫。

但对于想要认真做量化投资的人,这是绕不开的现实约束。

---

**好,我们来做个小结。**

今天这一章,我们从理论走进了实操。

Smart Beta 是因子投资的产品化,但你要看清楚它用的是哪个因子、怎么定义的。

多因子打分法,能筛出在多个维度同时优秀的股票,比简单叠加更精细。

A 股有自己的因子逻辑,不能照搬海外经验,需要独立验证。

调仓频率要和交易成本做权衡,频繁换仓会把超额收益吃光。

容量和拥挤度,是因子策略的隐形天花板。

这些,是把因子从论文变成真金白银必须面对的问题。

但是——

等等。

你有没有想过一个更根本的问题?

我们讲了这么多因子,这么多策略,这么多数据。

这些数据,是真的吗?

回测出来的收益,是真实可以拿到手的收益吗?

还是说,我们只是在用历史数据,讲一个自己想听的故事?

下一章,我们要进入这本书最让人不安的部分——

回测过拟合、数据挖掘偏差、因子衰减。

量化投资的边界,到底在哪里?

你准备好了吗?

第 4 章 · 陷阱与边界:回测过拟合与因子衰减

你有没有想过——一个在历史数据上完美运行的策略,上线第一天就开始亏钱?这不是运气问题,也不是市场变了。很可能,从一开始,那个策略就是假的。今天这一章,我们来聊量化投资最危险的那道坎。

上一章我们把因子投资的实操层面走了一遍。

Smart Beta、多因子打分、A 股的特殊性、调仓频率……

核心结论是:因子有效,但要落地,细节决定生死。

今天,我们来收尾。

不聊怎么赚钱了。

我们来聊——怎么避免被坑。

---

**先还原一个场景。**

二〇〇七年。

华尔街。

一家量化对冲基金的研究员,盯着屏幕上的回测报告。

年化收益,三十二个百分点。

最大回撤,不超过八个百分点。

夏普比率,两点一。

他把报告递给基金经理,说:这个策略跑了十五年的历史数据,非常稳。

基金经理点点头。

上线。

然后——

二〇〇七年八月,量化危机爆发。

那一周,几乎所有用类似逻辑构建的量化基金,同时巨亏。

有的单周跌了百分之二十。

为什么?

策略没问题。

逻辑没问题。

但有一件事,他们忽略了。

---

**这件事,叫做回测过拟合。**

什么是回测过拟合?

简单说:你用历史数据找规律,找着找着,找出了一个"假规律"。

它在历史数据上表现完美,因为它本来就是从这段历史数据里"挖"出来的。

你把数据挖了一遍又一遍,换参数、换周期、换组合方式,直到找到一个看起来很好的结果。

然后你以为这是"发现"。

其实,你只是在做数据拟合。

石川在书中写道,这个问题的本质是:研究者在不知不觉中,把历史数据的"噪声"当成了"信号"。

停。

这句话要细品。

噪声,是随机的波动。

信号,是真实存在的规律。

历史数据里,两者混在一起。

你的模型越复杂,参数越多,它就越能"解释"历史——但它解释的,很可能是噪声。

等到真实市场来了,噪声消失了,你的策略就垮了。

---

**有多严重?**

美国学者坎贝尔·哈维做过一个统计。

金融学术期刊上发表的因子研究,数量超过——

三百个。

三百个因子。

每一个,在论文里都有统计显著性支撑。

但他的核心观点是:其中相当大比例,可能根本经不起样本外检验。

为什么?

因为发表偏差。

做研究的人,找到了有效的因子,就发表。

找到了无效的因子,就不发表。

于是你看到的,全是"有效"的。

这就像一个赌场,只把赢钱的客人推出来做广告。

你看到的,全是赢家。

---

**这在量化圈有个专门的名字:数据挖掘偏差。**

英文叫 Data Snooping Bias。

石川在书中特别强调,这是量化投资领域最隐蔽、也最致命的陷阱之一。

为什么隐蔽?

因为你自己都不知道自己在挖数据。

你以为你在做严谨的研究。

你有逻辑、有假设、有统计检验。

但如果你在同一批数据上反复测试,哪怕每次都"有逻辑",最终结论的可靠性也在下降。

统计学有个概念叫"多重检验"。

你做一次检验,误报概率是百分之五。

你做二十次检验,至少有一次误报的概率——

超过六成。

六成。

所以,当你看到一个"显著有效"的因子,第一个问题不是"它为什么有效",而是——

它被测试过多少次?

---

**好,假设你的因子是真实的。**

假设它经过了严格的样本外验证。

假设它不是数据挖掘的产物。

然后呢?

然后你还有另一个问题。

叫做因子拥挤。

---

**再还原一个场景。**

二〇一五年到二〇一八年。

A 股市场。

量化投资开始大规模兴起。

越来越多的私募基金、公募基金,开始用同样的因子——

低估值、高动量、小市值。

大家都在用。

大家都在买同样的股票。

这些股票的价格,被推高了。

因子还有效吗?

短期看,更有效了——因为更多人买,价格涨得更快。

但这只是幻觉。

等到某一天,市场风格切换,或者某个大型机构开始减仓——

所有用同样因子的策略,同时触发卖出信号。

同时卖。

流动性枯竭。

价格暴跌。

这就是因子拥挤的崩塌方式。

不是慢慢失效,而是——

突然断裂。

---

**这个场景,和二〇〇七年华尔街的量化危机,本质上是一回事。**

太多人用同样的逻辑,同样的因子,同样的进出场规则。

市场一旦异动,所有人同时踩踏。

书中的核心观点是:因子的有效性,不是一个静态的存在,而是动态的,会随着使用它的资金规模变化。

当一个因子被发现、被广泛使用,它的超额收益就开始被侵蚀。

这不是阴谋,这是市场竞争的自然结果。

你发现了一个金矿。

你挖。

别人也发现了。

也挖。

金矿挖空了。

超额收益,消失了。

---

**那因子轮动呢?**

有人说:没关系,因子会轮动。

价值因子失效的时候,动量因子有效。

动量因子失效的时候,质量因子有效。

我只要跟着轮,不就行了?

听起来很聪明。

但等等。

你怎么知道,现在轮到哪个因子?

如果你用历史数据来判断因子轮动规律——

你又回到了回测过拟合的陷阱里。

因子轮动本身,也需要预测。

而预测,是量化投资里最难的事。

石川在书中对此相当克制,他的态度是:因子轮动有其逻辑,但对轮动时机的预测,目前没有可靠的方法。

克制。

这两个字,我觉得是整本书最值钱的地方。

---

**来看一个当下的映射案例。**

二〇二三年,A 股市场。

有一批量化基金,用的是超高频的小市值因子策略。

在某些阶段,年化收益非常亮眼。

但二〇二四年初,监管收紧,市场流动性结构变化,小市值股票集体暴跌。

那些策略,单周最大回撤超过二十个百分点。

很多投资者不理解:明明历史数据这么好,为什么突然就不行了?

答案就在这本书里。

第一,策略可能本身就存在过拟合——在特定市场结构下"挖"出来的,换个环境就失效。

第二,因子拥挤——太多资金用同样逻辑,同样的崩塌方式。

第三,容量限制——策略的超额收益,和它能承载的资金规模,是反比关系。规模越大,越难赚。

这不是某家基金的失误。

这是量化投资的结构性边界。

---

**那量化投资,到底有没有用?**

有用。

但你要知道它的边界在哪里。

边界一:回测不等于未来。

任何策略,都要做样本外验证。

不是用同一批数据的后半段,而是真正的"未来数据"——也就是实盘检验。

边界二:因子有效性是动态的。

今天有效,不代表明天有效。

规模越大,超额收益越难维持。

边界三:轮动难以预测。

不要试图精确踩点。

分散配置多个因子,才是更稳健的做法。

边界四:市场不是静止的实验室。

你的策略进入市场,市场就会改变。

这是量化投资和物理学最大的不同——

你观测它,它就变了。

---

**回头看这本书。**

我们从第一章开始,从 CAPM 单因子讲起,到法玛和弗伦奇的三因子模型,搞清楚了"因子"这个概念到底是什么。

第二章,我们把五大经典因子一一拆解,用数据说话——价值、规模、动量、盈利、投资,每一个背后都有真实的风险溢价逻辑。

第三章,我们落到实操层面,Smart Beta 怎么选,多因子怎么配,A 股有哪些特殊性,容量和拥挤度怎么考量。

第四章,也就是今天,我们来到了这本书最冷静的地方——

陷阱在哪里,边界在哪里。

作者真正想告诉我们的,不是"因子投资包赚不赔",而是:

这是一套有逻辑、有证据支撑的方法论。

但它不是魔法。

它需要你理解它的局限,尊重它的边界,然后在这个框架内,做出更理性的决策。

合上这本书,带走的不是一个策略,而是一种思维方式:

用证据说话,但永远对证据保持怀疑。

用证据说话,但永远对证据保持怀疑。—— 石川等,因子投资:方法与实践,核心方法论总结

关于入门系列

入门系列

石川是国内量化投资领域的研究者与实践者,长期深耕多因子模型的学术梳理与本土化应用。这本书是中文世界第一本系统性讲解多因子投资的实操教材,填补了「学术论文看不懂、市面上的书又太浅」之间的空白。它出版后迅速成为国内量化从业者的案头参考,也被不少高校金融课程列为延伸读物。时至今日,随着A股机构化程度持续提升、因子策略愈发普及,这本书的参考价值反而比出版时更高。

查看入门系列全部投资笔记 →

本篇 1 句最值得抄进笔记的话

读完这篇,你还会喜欢

在某派 App 继续学习
220+ 大师案例 · 知性男声音频解读 · AI 对话讨论 · 流派归属测评
完整音频版 10 大投资流派 30+ 大师 离线收听 流派测评
下载某派 App
App Store 评分 4.7 · 已上架美区中文
在某派 App 听 56 分钟完整音频解读
含 220+ 大师案例 · AI 对话 · 流派测评
打开 App