AI 模型最终学习的是:
价格背后的深层结构与行为模式。
这些模式来自你输入的特征:
技术特征(如移动平均)
基本面特征(PE、ROE 等)
高频特征(盘口)
宏观特征
情绪特征(新闻、社交媒体)
链上数据(加密货币)
交叉市场特征(利率、汇率、商品价格)
AI 模型本质上是一种 多维特征处理器:
输入的维度越丰富
信号越多样
稳定性越强
交易系统越能理解行情
真正赚钱的 AI 策略不是因为用了高级模型,而是因为:
特征包含了未来价格真正的驱动力。
完整的 AI 量化特征体系包含 3 层结构:
常见类型:
开高低收(OHLC)
成交量、成交额
VWAP
bid/ask 深度
成交笔数
大单占比
市场冲击成本
财报(EPS、ROE、ROA、负债率、现金流)
财务指标(存货、分红、营收增速)
Twitter(X)
新闻标题
财报电话会议文本
CPI、利率曲线、PMI
国债收益率
汇率、利差
黄金
原油
DXY
比特币(跨市场情绪指标)
海运指数
卫星图像(港口、工厂)
LinkedIn 员工变动
Google Trends
给原始数据做数学、逻辑层面的变换,形成模型可识别的特征。
8 大标准特征变换:
Rolling mean
Rolling std
Rolling skew
Rolling kurt
3 日、10 日、20 日、60 日收益
RSI、CCI、Stoch
Garman-Klass
Parkinson
Realized Volatility(高频)
均线斜率
MA 与价格偏离
MACD、KDJ
使用一维 CNN 可以从 K 线形态中自动提取:
上升三角
通道突破
双底/三顶
Order Imbalance
Signed Volume
Price Impact
Market Depth Imbalance
GPT Embedding
BERT Embedding
FinBERT 情绪标签(positive/negative/uncertain)
TF-IDF
主题模型(LDA)
交叉市场关系:
股票价格 vs 国债收益率变化
科技股 vs 美元指数
A 股 vs 港股
最终从上千维特征中选出最稳定的一小部分。
常用方法:
去掉:
高皮尔逊相关的特征(>0.85)
高多重共线性的特征(VIF > 10)
使用互信息(mutual information)筛掉无意义特征。
如果以下类型特征都入选 → 稳定性更高:
价格动量
成交量
波动率
微观结构
文本情绪
说明模型不是单一信号驱动。
优点:
可以看到特征对预测的方向性与稳定性
可以识别反直觉的、有问题的特征(未来函数)
如果某个特征:
在不同市场收益一致 → 保留
在不同市场收益断崖式变化 → 删除
在加噪声时重要性改变巨大 → 删除
顶级量化基金都有自己的 Feature Store,它的作用:
统一管理特征
自动处理缺失值
自动对齐时间
自动 PIT(Point-in-Time)
自动维护滚动窗口
一个 Feature Store 必须满足:
任何人、任何时间跑,结果必须一致。
不能用未来数据。
自动增量更新。
能存:
百万行 × 上千维特征
多市场 × 多频率
云端典型架构:
数据层:S3 / BigQuery
计算层:Spark / Ray
管理层:Feast / 自研
例如:
使用财报真实公布日之前的数据
rolling window 使用未来窗口
scaler 在全数据 fit
结果是:
回测好得离谱,但实盘100%炸。
特征太平滑 → 模型反应迟钝
特征太快 → 噪音巨大
真实策略需要 “快慢结合”。
新闻发布时间 vs 实际可交易时间
极易泄漏。
特征越多 → 越容易过拟合。
一般建议:
股票日频:50–200 个特征
高频:20–100 个特征
文本情绪:embedding 降维后 ≤ 50
宏观:10–50
假设你在做 美股日频 AI 多因子策略:
过去 10 年 SP500 成分股(含退市)
日 K 线
财报数据
新闻标题(embedding)
宏观指数(DXY、VIX、10Y 国债收益率)
确保:
财报 T+1 生效
新闻时间戳对齐
K 线按交易日对齐
如:
momentum: 10d, 20d, 60d
volatility: 20d, 60d
MA/EMA
ATR
price deviation
ROE、ROA
负债率
EBIT 增速
总资产周转率
FinBERT 情绪
新闻 embedding(降维到 8 维)
10Y–2Y 利差
市场波动指数(VIX)
美元指数(DXY)
使用:
LightGBM importance
SHAP
MI
多市场稳定性
核心思路:
特征工程比模型重要 10 倍。
一套成熟 AI 量化特征体系具备:
多数据源
多频率
多维特征
时间一致(PIT)
稳健过滤
自动化 Feature Store
可复现
构建好这套体系,你的 AI 模型才真正有机会学到“市场的底层结构”。
这也是为什么:
顶级基金花 60% 时间在特征
只有 20% 时间花在模型
20% 时间花在交易执行
免费获取专属报价方案