如何构建你的第一套 AI 量化特征工程体系

一、为什么特征工程决定了 AI 量化策略的上限?

AI 模型最终学习的是:

价格背后的深层结构与行为模式。

这些模式来自你输入的特征:

  • 技术特征(如移动平均)

  • 基本面特征(PE、ROE 等)

  • 高频特征(盘口)

  • 宏观特征

  • 情绪特征(新闻、社交媒体)

  • 链上数据(加密货币)

  • 交叉市场特征(利率、汇率、商品价格)

AI 模型本质上是一种 多维特征处理器

  • 输入的维度越丰富

  • 信号越多样

  • 稳定性越强

  • 交易系统越能理解行情

真正赚钱的 AI 策略不是因为用了高级模型,而是因为:

特征包含了未来价格真正的驱动力。


二、构建 AI 量化特征工程体系的“三层结构”

完整的 AI 量化特征体系包含 3 层结构:


层级 1:Raw Data(原始数据层)

常见类型:

1. K 线数据(Bar 数据)

  • 开高低收(OHLC)

  • 成交量、成交额

  • VWAP

2. Level 2 盘口数据(微观结构)

  • bid/ask 深度

  • 成交笔数

  • 大单占比

  • 市场冲击成本

3. 基本面数据

  • 财报(EPS、ROE、ROA、负债率、现金流)

  • 财务指标(存货、分红、营收增速)

4. 新闻 + 社交媒体情绪

  • Twitter(X)

  • Reddit

  • 新闻标题

  • 财报电话会议文本

5. 宏观数据

  • CPI、利率曲线、PMI

  • 国债收益率

  • 汇率、利差

6. 交叉资产

  • 黄金

  • 原油

  • DXY

  • 比特币(跨市场情绪指标)

7. Alternative Data(另类数据)

  • 海运指数

  • 卫星图像(港口、工厂)

  • LinkedIn 员工变动

  • Google Trends


层级 2:Feature Transformation(特征变换层)

给原始数据做数学、逻辑层面的变换,形成模型可识别的特征。

8 大标准特征变换:

1. 时间窗特征(Rolling Window)

  • Rolling mean

  • Rolling std

  • Rolling skew

  • Rolling kurt

2. 动量特征(Momentum)

  • 3 日、10 日、20 日、60 日收益

  • RSI、CCI、Stoch

3. 波动率特征(Volatility)

  • Garman-Klass

  • Parkinson

  • Realized Volatility(高频)

4. 趋势特征(Trend)

  • 均线斜率

  • MA 与价格偏离

  • MACD、KDJ

5. 形态特征(Patterns)

使用一维 CNN 可以从 K 线形态中自动提取:

  • 上升三角

  • 通道突破

  • 双底/三顶

6. 微观结构特征(Microstructure)

  • Order Imbalance

  • Signed Volume

  • Price Impact

  • Market Depth Imbalance

7. 文本情绪(NLP 特征)

  • GPT Embedding

  • BERT Embedding

  • FinBERT 情绪标签(positive/negative/uncertain)

  • TF-IDF

  • 主题模型(LDA)

8. 特征交互(Interaction Features)

交叉市场关系:

  • 股票价格 vs 国债收益率变化

  • 科技股 vs 美元指数

  • A 股 vs 港股


层级 3:Feature Selection(特征选择层)

最终从上千维特征中选出最稳定的一小部分。

常用方法:


方法 1:统计相关性过滤(Correlation Filter)

去掉:

  • 高皮尔逊相关的特征(>0.85)

  • 高多重共线性的特征(VIF > 10)


方法 2:信息量筛选(Information Value / MI)

使用互信息(mutual information)筛掉无意义特征。


方法 3:树模型选择(LightGBM / XGBoost Importance)

如果以下类型特征都入选 → 稳定性更高:

  • 价格动量

  • 成交量

  • 波动率

  • 微观结构

  • 文本情绪

说明模型不是单一信号驱动。


方法 4:SHAP 值过滤(Explainability)

优点:

  • 可以看到特征对预测的方向性稳定性

  • 可以识别反直觉的、有问题的特征(未来函数)


方法 5:稳健性测试(R1–R7)应用到特征层

如果某个特征:

  • 在不同市场收益一致 → 保留

  • 在不同市场收益断崖式变化 → 删除

  • 在加噪声时重要性改变巨大 → 删除


三、构建一套专业级 Feature Store(特征库)

顶级量化基金都有自己的 Feature Store,它的作用:

  • 统一管理特征

  • 自动处理缺失值

  • 自动对齐时间

  • 自动 PIT(Point-in-Time)

  • 自动维护滚动窗口

一个 Feature Store 必须满足:

1. 特征可重现(Reproducibility)

任何人、任何时间跑,结果必须一致。

2. 特征时间点一致(Point-in-Time)

不能用未来数据。

3. 更新机制(Daily / Intraday)

自动增量更新。

4. 容量扩展(Scale)

能存:

  • 百万行 × 上千维特征

  • 多市场 × 多频率

云端典型架构:

  • 数据层:S3 / BigQuery

  • 计算层:Spark / Ray

  • 管理层:Feast / 自研


四、AI 量化特征工程常见四大陷阱

1. “偷看未来”的特征

例如:

  • 使用财报真实公布日之前的数据

  • rolling window 使用未来窗口

  • scaler 在全数据 fit

结果是:
回测好得离谱,但实盘100%炸。


2. 过度平滑

特征太平滑 → 模型反应迟钝
特征太快 → 噪音巨大

真实策略需要 “快慢结合”


3. 文本情绪特征误用

新闻发布时间 vs 实际可交易时间
极易泄漏。


4. 特征数量过多

特征越多 → 越容易过拟合。

一般建议:

  • 股票日频:50–200 个特征

  • 高频:20–100 个特征

  • 文本情绪:embedding 降维后 ≤ 50

  • 宏观:10–50


五、一个完整的 AI 量化特征工程示例(端到端)

假设你在做 美股日频 AI 多因子策略:


数据集(示例)

  • 过去 10 年 SP500 成分股(含退市)

  • 日 K 线

  • 财报数据

  • 新闻标题(embedding)

  • 宏观指数(DXY、VIX、10Y 国债收益率)


特征工程流程(生产级)

Step 1:对齐数据时间(PIT)

确保:

  • 财报 T+1 生效

  • 新闻时间戳对齐

  • K 线按交易日对齐


Step 2:生成技术特征(60+)

如:

  • momentum: 10d, 20d, 60d

  • volatility: 20d, 60d

  • MA/EMA

  • ATR

  • price deviation


Step 3:生成基本面特征(20+)

  • ROE、ROA

  • 负债率

  • EBIT 增速

  • 总资产周转率


Step 4:文本情绪特征(10+)

  • FinBERT 情绪

  • 新闻 embedding(降维到 8 维)


Step 5:宏观特征(10+)

  • 10Y–2Y 利差

  • 市场波动指数(VIX)

  • 美元指数(DXY)


Step 6:特征选择(最终保留约 100 个)

使用:

  • LightGBM importance

  • SHAP

  • MI

  • 多市场稳定性


六、总结:你的 AI 量化策略,不能没有成熟特征工程体系

核心思路:

特征工程比模型重要 10 倍。

一套成熟 AI 量化特征体系具备:

  • 多数据源

  • 多频率

  • 多维特征

  • 时间一致(PIT)

  • 稳健过滤

  • 自动化 Feature Store

  • 可复现

构建好这套体系,你的 AI 模型才真正有机会学到“市场的底层结构”。

这也是为什么:

  • 顶级基金花 60% 时间在特征

  • 只有 20% 时间花在模型

  • 20% 时间花在交易执行