量化交易中最常见的三个建模任务:
输出:上涨 or 下跌
标签例子:
明日涨幅 > 0 → 1
明日涨幅 ≤0 → 0
适用于:
趋势跟随
择时
短周期波动预测
预测未来收益:
适用于:
多因子模型
Alpha Fusion
风险预测模型
用于横截面选股(cross-sectional ranking)
例如:
预测未来 5 天收益
对同一天所有股票进行排序
选 top 10% 做多
这是量化基金最常用的做法。
模型的好坏取决于特征质量。
我们将特征分四大类。
常见且有效:
MA / EMA / WMA
RSI
MACD
ATR
Bollinger Band
ADX
KDJ
动量因子:momentum
均值回归:zscore
波动率因子:realized volatility
偏度、峰度
示例:
适用于高频或分钟级:
买卖盘深度差
Order imbalance
VWAP 偏离
Tick direction
Spread
Queue imbalance
示例:
将多个因子融合:
(动量 × 波动率)
(成交量 × 价格变化)
(RSI × 趋势)
量化训练中最大的坑:未来函数(look-ahead bias)。
必须严格遵守:
特征全部来自 过去
标签来自 未来
分割必须按时间顺序进行
不允许 shuffle
示例:预测未来一天涨幅
使用 时间滚动窗口(Walk-forward) 更稳健。
基础参数:
量化中特别重要的参数:
max_depth → 控制过拟合
subsample → 增强泛化
colsample_bytree → 控制特征选择稳定性
eta → 小学习率提高稳定性
模型输出通常是:
交易信号转化方式:
一天所有股票:
预测未来收益
排序
买入 top 10%、卖空 bottom 10%
这是最稳定的盈利方式。
prob_up = 0.80 → 仓位 = +0.60
prob_up = 0.20 → 仓位 = –0.60
适合期货、指数增强策略。
回测必须包含:
滑点
手续费
仓位变化
订单延迟
分钟级或日级收益
示例(伪代码):
年化收益率
最大回撤
夏普比
Calmar ratio
成交次数
盈亏比
稳定性(rolling Sharpe)
XGBoost 最大的优势之一就是:
可解释性非常强
你可以查看:
特征重要性(Feature Importance)
SHAP 值
特征交互
可以看到:
哪些因子影响最大
哪些技术指标冗余
哪些因子无价值 → 剔除
非常适合解读模型对收益的贡献。
你可以看到:
为什么模型认为某天应该涨
哪些因子推动上涨预测
哪些特征引起风险
机构量化团队广泛使用 SHAP 解释模型。
XGBoost 的强点在于:
很稳
泛化能力强
可解释性好
但要更稳,可以采用:
XGBoost + LightGBM
XGBoost + LSTM
XGBoost + 规则因子
XGBoost + Transformer embedding
增强训练集稳定性:
每 1–3 个月重新训练。
强特征 → 保留
弱特征 → 剔除
多冗余特征 → 减少过拟合
不能用普通 CV(会穿越时间)。
部署方式包括:
每天训练 → 输出次日仓位
Redis/Kafka 实时推送模型输入
模型在 GPU/CPU 上实时 inference
你必须监控:
模型收益漂移
信号频率变化
交易成本飙升
特征分布 shift
否则模型可能失效但你完全不知道。
优点总结:
对噪声不敏感
对特征强大支持
可解释
工程部署简单
回测稳定
泛化好
内置正则化
缺点:
单点预测能力有限(不如 Transformer)
难以捕捉深层序列结构(不如 LSTM)
高频表现一般
但对于 90% 的量化场景(特别是中低频策略):
XGBoost 是最佳起点,也是最稳的收益来源。
免费获取专属报价方案