机器学习交易预测核心是监督学习。核心步骤是构造标签(Label),即模型要预测的目标。
涨跌分类(Classification):
Label = 1 → 下一个时间段上涨
Label = 0 → 下一个时间段下跌或持平
收益回归(Regression):
Label = 下一时间段收益率
示例:预测未来 10 分钟价格涨跌
特征工程决定了 ML 模型能否提取有效信息。常见特征包括:
技术指标
MA(移动平均)
EMA(指数移动平均)
RSI(相对强弱指标)
Bollinger 带宽
成交量与动量因子
成交量均值
成交量比率
价格动量(ROC、涨跌幅)
订单簿特征
Bid/Ask imbalance
Depth difference
价格梯度
情绪因子
新闻情绪分数
社交媒体情绪指数
示例:构造 MA 差和 RSI
RandomForestClassifier:适合非线性分类问题,稳定且可解释
XGBoost/LightGBM:梯度提升树,处理特征维度高、非线性强的数据
神经网络(MLP):可进一步捕捉复杂模式,但训练成本高
机器学习输出的通常是分类结果或概率,需要结合风控生成可执行信号:
最大仓位限制
单笔交易止损/止盈
高频策略需考虑滑点
回测是检验机器学习策略的关键:
累计净值
胜率、盈亏比
最大回撤(Max Drawdown)
Sharpe、Sortino 比率
注意:实盘滑点和手续费会显著降低收益。
数据来源:Binance 历史 1 小时 K 线 + 推特情绪
特征:MA 差、RSI、订单簿 imbalance、情绪得分
模型:RandomForestClassifier
回测结果:
累计收益:15%(3 个月)
最大回撤:7%
Sharpe 比率:1.45
分析:
情绪因子提升了中短线预测准确率约 3–5%
高频噪声对 MA/RSI 因子有负面影响
需结合滑点和手续费才能落地
过拟合风险:ML 模型容易拟合历史噪声
数据质量问题:脏数据导致策略失效
时间序列交叉验证:训练集/测试集不能随机拆分
特征不可过度依赖金融逻辑不明确的信号
数据优先:高质量、多维度数据是机器学习策略的核心
特征多样性:技术指标 + 情绪 + 订单簿融合
模型稳健性:RandomForest/XGBoost 适合初学者和中频策略
回测严格:考虑滑点、手续费、异常行情
持续优化:因子漂移、市场变化需不断更新模型
机器学习在量化交易中不是万能钥匙,但它能将复杂市场关系转化为可执行的策略信号,结合风控和回测,形成科学化交易体系。
免费获取专属报价方案