機器學習在量化選股中的典範轉移
傳統因子投資長期依賴Fama-French三因子模型(1990年代)及其後續延伸,主要包括價值(Value)、動量(Momentum)、規模(Size)等線性因子。然而,根據2024-2025年的最新研究,這些傳統線性模型的月度樣本外R²值已接近零,而機器學習模型可達1.5%-2.0%,預測能力提升達三倍。
從線性到非線性的演進
| 模型類型 | 預測能力(R²) | 夏普比率 | 適用場景 |
|---|---|---|---|
| Fama-French 線性模型 | ~0% | 1.3 | 低頻、穩定市場 |
| 隨機森林(Random Forest) | 1.2% | 1.8 | 中頻、非線性關係 |
| XGBoost 梯度提升 | 1.5% | 2.1 | 高頻、複雜交互作用 |
| 轉換器模型(Transformer) | 2.0% | 2.9 | 替代數據、時序預測 |
根據AQR資本管理於2024年發表的《Can Machines Build Better Stock Portfolios?》研究,使用價值、動量及Fama-French五因子加動量等信號組成的多因子選股策略中,複雜機器學習模型相比簡單線性方法,表現提升幅度達50-100%,夏普比率從1.3提升至2.1(使用100倍複雜度模型)。
機器學習的核心優勢:捕捉非線性與交互作用
隨機森林與梯度提升樹
隨機森林(Random Forest)透過整合多棵決策樹的預測,有效降低方差並捕捉因子間的非線性交互作用。在選股應用中,隨機森林可處理500-1000個因子,自動降低不相關因子的權重,並透過特徵重要性(Feature Importance)指標揭示哪些變量最具預測力。
根據Caparrini等人(2024)在《S&P 500 stock selection using machine learning classifiers》中的實證研究,使用決策樹、隨機森林和XGBoost對S&P 500成分股進行分類,在14年回測期間持續跑贏指數。研究特別指出:「特徵重要性的演變揭示了分類器中因子的變化角色」,這意味著不同市場環境下,驅動股票表現的因子會動態轉變。
梯度提升的動態適應能力
XGBoost和LightGBM等梯度提升算法,透過迭代方式逐步修正預測誤差,特別擅長捕捉市場驅動力的轉移。根據Xponance(2025)的實證分析,梯度提升模型能「檢測市場驅動力的變化,調整預測以反映因子間不斷變化的關係」,在妥善調參的情況下,其表現往往優於其他集成方法。
深度學習與轉換器模型的前沿應用
時間序列的深度建模
遞歸神經網絡(RNN)和長短期記憶網絡(LSTM)專門處理時間序列數據,捕捉股票的動態演變模式。根據Du(2025)在《Machine Learning Enhanced Multi-Factor Quantitative Trading》中的研究,使用PyTorch加速的張量因子計算,在中國A股市場(2010-2024)實證驗證中,實現年化回報率20%,夏普比率超過2.0。
轉換器模型:新一代選股引擎
轉換器(Transformer)架構最初為自然語言處理設計,現已成功應用於金融時間序列預測。StockFormer(2024)結合STL分解和自注意力機制,使用S&P 500數據進行訓練和測試,在擺盪交易策略中實現累積回報13.19%,年化回報率30.80%,顯著超越現有最先進模型。
更重要的是,根據Finexus(2026)的分析,使用大型語言模型(LLM)代理解析財報電話會議的定性情緒,相比傳統量化基準,可將夏普比率提升約10.6%。這標誌著選股已從「因子發現」轉向「工程學科」,動態權重調整和實時替代數據整合成為新前沿。
替代數據:資訊延遲的終結者
替代數據的類型與價值
替代數據市場規模預計在2026年底達到216億美元,主要包括:
- 信用卡交易數據:追蹤零售商銷售表現,比季度財報快15-20天
- 衛星影像數據:監測供應鏈瓶頸、停車場車流量等實體經濟活動
- 網絡爬取數據:電商定價、求職網站職位數量等即時市場信號
- 社交媒體情緒:新聞文章、社交媒體貼文的情緒分析
根據2026年《Beyond the Factor Zoo》報告,「現代實證資產定價依賴人工智慧定價模型(AIPM),利用轉換器和梯度提升回歸樹捕捉條件依賴性,這些關係是線性模型系統性忽略的」。
替代數據與機器學習的協同效應
當高頻替代數據輸入機器學習模型時,算法不僅尋找線性相關,還識別因子在特定市場環境下的表現。例如,品質因子(Quality)在高通脹或低流動性環境中的表現,可以透過機器學習模型精確建模。
橫截面投資組合優化:對沖市場風險
為何選擇橫截面而非時間序列方法
傳統時間序列方法專注於絕對回報預測,而橫截面(Cross-Sectional)方法專注於投資範圍內的相對表現。這種範式轉移自然對沖市場風險,同時專注於證券選股的阿爾法(Alpha)生成能力。
Du(2025)的研究證實:「橫截面投資組合構建證明至關重要。市場中性頭寸消除了系統性市場風險,同時保留了阿爾法生成能力」。實證結果顯示,使用2010-2020年數據訓練的模型,在2021-2024年測試期間,實現年化回報率20.4%,夏普比率2.01。
偏差校正與因子中性化
有效的橫截面優化需要嚴格的偏差校正(Bias Correction)和交叉因子中性化。透過幾何布朗運動數據增強(Data Augmentation)和張量優化,可以處理高維因子空間(500-1000個因子)中的過擬合問題。
實務應用:多因子動態權重策略
聚類分析與市場機制識別
根據Atlantis Press(2025)的研究,使用K-Means和GMM聚類技術識別市場機制(Regime),並根據當前市場條件(波動率水平、市場趨勢、整體不確定性)動態調整因子權重。該動態策略實現年化回報率(CAGR)47.57%,大幅超越S&P 500指數的14.41%和非動態策略的20.27%。
資訊係數(IC)加權方法
相比基於模型評估指標(RMSE、MAPE、精確率、召回率、F1分數)的靜態加權,基於資訊係數(Information Coefficient, IC)的動態加權方法表現更優。ICMean加權預測器實現年化回報率13.80%,相對於CSI 300基準獲得39.09%的超額回報。
風險管理與模型驗證
避免過擬合的關鍵措施
金融數據的噪聲大且非平穩,模型必須經過嚴格驗證以避免擬合歷史數據中的隨機模式。有效的風險管理措施包括:
- 滾動窗口交叉驗證:使用6個季度作為校準窗口,每季度重新平衡
- 壓力測試:在不同市場機制下測試模型穩健性
- 適當正則化:使用Ridge回歸、隨機森林的袋裝法(Bagging)等技術
- 可解釋性工具:SHAP值、部分依賴圖(Partial Dependence Plots)打開模型黑盒
交易成本與實際可行性
根據Ghatak等人(2025)在《Increase Alpha: Performance and Risk of an AI-Driven Trading Framework》中的研究,使用814隻美國股票進行的實證顯示,應用貝塔過濾器(Beta Filter)並按夏普比率排序選股,可實現夏普比率2.38,最大回撤僅2.5%。這證明機器學習信號在考慮交易成本後仍具實用價值。
結語:量化選股的未來方向
機器學習在選股中的應用已從學術研究走向實務部署。投資者不能再依賴靜態因子傾斜,而必須:
- 整合替代數據源,縮短資訊延遲
- 使用非線性架構捕捉複雜市場動態
- 實施橫截面投資組合優化實現市場中性
- 持續模型更新以適應不斷變化的市場環境
根據2026年的共識,「可操作的阿爾法現在存在於基於實體世界信號(如衛星追蹤的供應鏈瓶頸或實時消費支出)的動態因子權重中,這些信號透過尊重全球資本市場固有非線性的模型進行處理」。轉向人工智慧定價模型(AIPM)不僅是技術升級,更是數字時代風險與回報定價的結構性轉變。
參考文獻:
- AQR Capital Management (2024). "Can Machines Build Better Stock Portfolios?" Alternative Thinking, Issue 4.
- Caparrini, A., Arroyo, J., & Escayola Mansilla, J. (2024). "S&P 500 stock selection using machine learning classifiers: A look into the changing role of factors." Research in International Business and Finance, 70(Part A), 102336.
- Du, Y. (2025). "Machine Learning Enhanced Multi-Factor Quantitative Trading: A Cross-Sectional Portfolio Optimization Approach with Bias Correction." arXiv:2507.07107.
- Finexus (2026). "Beyond the Factor Zoo: Quantifying the Alpha Shift from Machine Learning and Alternative Data Integration."
- Xponance (2025). "Machine Learning in Stock Selection." White Paper.
- Ghatak, S., Khaledian, A., Parvini, N., & Khaledian, N. (2025). "Increase Alpha: Performance and Risk of an AI-Driven Trading Framework." arXiv:2509.16707.
- Investopedia. "Quantitative Trading." https://www.investopedia.com/terms/q/quantitative-trading.asp
- NASDAQ. "Machine Learning in Finance." https://www.nasdaq.com/