传统模型做的是 预测:
预测涨跌
预测波动率
预测回报
预测资金流
强化学习做的是 决策:
在不确定环境中,什么时候买、什么时候卖、买多少、怎么持仓?
RL 特别适合:
高频做市
期权动态 Delta 对冲
套利路径优化
多策略组合权重控制
仓位 + 时机 + 风控一体化决策
一句话:
RL 不擅长预测,但擅长“如何行动”。
不是所有 RL 都能赚钱,但以下三类场景极其适合:
做市本质上是:
挂买单?挂卖单?
抬价多少?让价多少?
库存风险如何控制?
什么时候撤单?
做市就是一个典型的 连续动作空间决策问题。
很多高频期货、加密 HFT 已经实盘跑 RL 做市策略。
如果你需要:
每分钟调一次 Delta
根据隐含波动率变化调 Gamma
控制 Vega 暴露
避免过度交易
RL 非常适合做“最优对冲路径”。
像:
Black-Litterman
Leland 对冲模型
都可以用 RL 做到更优。
传统方法:
Markowitz
Black-Litterman
风险平价(Risk Parity)
这些都基于假设(协方差稳定性、收益分布正态),现实中经常失效。
RL 可以:
随市场 regime 自动换权
识别轮动结构
理解跨资产影响
自动控制下行风险
在加密、CTA、多资产基金中应用最广。
这是 RL 成败的核心。
一个稳定的交易环境通常包含:
包括:
技术特征
AE/GNN 生成特征
盘口微结构
波动率指标
资金流
板块关系
仓位状态
现金与保证金
时间信息
买入
卖出
调仓
对冲
撤单
调整风险暴露
执行交易路径(TWAP/VWAP)
可以是:
长期收益
Sharpe
净利润 – 手续费
下行风险惩罚
流动性成本惩罚
滑点惩罚
奖励设计比模型更重要。
常见错误:
❌ 奖励 = 当期收益
→ 结果 = 贪婪过拟合,频繁交易,手续费爆炸
❌ 奖励 = 每日回报
→ 结果 = 噪音很大,训练不稳定
❌ 奖励 = Sharpe
→ 非凸、不稳定
正确写法:
只对区间的整体表现给奖励,比如每 1 小时或每天一次。
减少噪音。
模仿人类投资偏好:
短期收益权重更高
长期收益依然重要
状态特征强于模型本身。
RL 状态一般包括三类:
技术指标(MACD、RSI、EMA 等)
波动率特征
盘口深度
Tick-level 特征
新闻情绪(LLM)
AE/GNN 生成 latent features
当前仓位
历史收益
最大回撤
马丁格尔 risk
对冲头寸
手续费成本
小时、分钟
波动率 regime
流动性状态
资金流周期性
RL 需要比预测模型更多的“动作上下文”。
很多人以为 RL 就是“预测涨跌”。
完全不是。
RL 做的是“策略动作”。
正确的 Action 空间示例:
持仓比例 ∈ [0,1]
对冲比例 ∈ [0,1]
委托价格偏移 ∈ [-0.5%, 0.5%]
用于高频/做市。
目前量化最常用 RL 算法。
特点:
稳定
易训练
可离散可连续
比较抗噪音
训练成本较低
擅长:
连续动作空间(做市、对冲、TWAP)
TD3 比 DDPG 更稳定(双 critic)。
适用于:
噪音巨大(加密)
连续动作
高频环境
特点:
熵奖励 + 探索更充分
适合:
市场结构快速变化
高频交易
regime shift 明显
模型可以自适应市场。
关键组件:
必须反映:
滑点
手续费
延迟
盘口深度
流动性
成交概率
不然 RL 一定会失效。
技术指标
AE/GNN latent features
新闻情绪
波动率
盘口 microstructure
PPO/SAC
多 Actor
多 Critic
经验回放(replay buffer)
优先级采样
带:
交易成本
状态重置
真实成交模拟
现金管理
仓位限制
控制:
最大滑点
委托价格偏移
成交量限制
风险限制
配额控制
会让策略:
频繁交易
过度对冲
扣手续费扣死
专门挑高噪音收益
解决:加入手续费和风险惩罚。
如果没有模拟成交概率:
RL 会学习“一直挂单但永远不成交”
→ 看似收益很高,实际上等于作弊。
RL 最容易泄漏:
隔夜价格
收盘信息
未来波动率
未来盘口深度
必须严格:
滚动训练
逐步 episode
鼓励噪音
Episode(训练轮)过多 → 完全拟合历史 → 实盘死亡。
解决:
多市场训练
多 regime 训练
随机噪音扰动
随机延迟与滑点
必须加入:
动作平滑(Action Smoothing)
持仓上限
风险暴露限制
多版本 ensemble
真正的工程系统:
预测模型 + 风控模型 + RL 决策层
RL 是 决策层,不是预测层。
必须:
限仓
限波动曝光
限 leverage
限最大交易次数
限连续亏损
强化学习最适合:
高频做市
期权动态对冲
多资产动态权重
仓位与风险一体化管理
不适合:
长线择时
高频方向预测
板块趋势判断
正确认识 RL 才能在量化中用好它。
机器学习预测未来,
强化学习决定行动,
两者融合才是下一代量化系统的主流架构。
免费获取专属报价方案