因子构建的前提是高质量数据:
历史行情数据:OHLC、成交量、盘口深度
财务数据:上市公司财报、财务指标
市场数据:利率、汇率、宏观指标
舆情数据:新闻、社交媒体情绪分数
缺失值填充或剔除
异常值剔除(如错单或停牌)
时间对齐(不同市场、不同频率)
因子公式需要理论依据 + 数据可验证性:
说明:过去 10 天收益率作为预测未来收益的指标
说明:短期均线高于长期均线表示上升趋势
说明:捕捉近期市场波动,辅助风控
因子有效性需通过统计方法验证:
IC(Information Coefficient):因子收益相关性
Rank IC:按排名计算的相关性
收益率分组测试:高因子组 vs 低因子组
稳健性检验:不同时间窗口、市场条件下因子表现
单一因子收益有限且波动大,可通过组合因子降低风险:
加权平均:按 IC 权重分配
主成分分析(PCA):提取综合因子
机器学习融合:如 LightGBM 将多个因子作为特征训练模型
数据:沪深 300 股票日线
因子:
动量因子(10 日收益率)
波动率因子(20 日标准差)
均线差因子(5 日 – 20 日)
因子标准化
因子加权组合
选股与回测
每周选择前 20% 综合因子股票买入
持仓 1 周,再重新排序
回测结果:
年化收益:18%
最大回撤:10%
Sharpe 比率:1.5
因子过拟合:过度优化历史数据,实盘表现差
数据偷跑(Look-ahead bias):因子使用未来信息,导致虚高回测
频繁交易成本忽略:高换手率会增加滑点和手续费
市场环境漂移:因子在不同牛熊市表现不同
因子自动化生成:
使用 ML 算法生成潜在因子
用 IC/Rank IC 自动筛选因子
因子动态权重:
根据滚动窗口 IC 调整权重
避免单因子失效带来大幅回撤
策略逻辑:动量 + 均线差 + 波动率
样本期:2018–2024
选股方法:每周重新选股,持仓 5 天
回测结果:
年化收益:17%
最大回撤:9%
胜率:55%
分析:
动量因子贡献最大
波动率因子主要用于风险控制
均线差因子改善趋势捕捉
先做单因子测试,再组合
因子要有经济或技术逻辑
回测严格,考虑成本、滑点和流动性
因子更新周期要根据市场环境调整
自动化筛选和动态权重提升稳定性
总结:量化因子是策略的核心,好的因子 + 严格回测 + 合理组合 = 稳定可盈利策略。
免费获取专属报价方案