当前位置: 首页 > news >正文

为什么量化交易用“裁剪对数收益率”更靠谱?

《为什么量化交易用“裁剪对数收益率”更靠谱?——强化学习中的回报函数选择》

这是一个非常核心的强化学习环境设计问题。选择裁剪后的对数收益率(Clipped Log Return)而非简单收益率(Simple Return),主要基于以下三个层面的考量:

1. 为什么用「对数收益率」而非「简单收益率」?

维度简单收益率r=Pt−Pt−1Pt−1r = \frac{P_t - P_{t-1}}{P_{t-1}}r=Pt1PtPt1对数收益率r=log⁡(PtPt−1)r = \log(\frac{P_t}{P_{t-1}})r=log(Pt1Pt)
时间可加性不可加:(1+r1)(1+r2)≠1+r1+r2(1+r_1)(1+r_2) \ne 1 + r_1 + r_2(1+r1)(1+r2)=1+r1+r2可加:∑log⁡ri=log⁡(∏ri)\sum\log r_i = \log(\prod r_i)logri=log(ri),与 RL 累计奖励定义天然一致
对称性不对称:跌 -50% 后需要涨 +100% 才回本,算术均值≠0\ne 0=0对称:+x% 和 -x% 数值相等符号相反,均值=0 表示不赚不亏
值域[−1,+∞)[-1, +\infin)[1,+),正收益无上界(−∞,+∞)(-\infin, +\infin)(,+),分布更接近正态
梯度信号大涨时梯度爆炸,小涨时梯度饱和自然压缩极端值,梯度更平稳

核心原因:RL 的目标是最大化∑γtrt\sum \gamma^tr_tγtrt

  • 其中,rtr_trt是即时奖励(Immediate Reward),在时间步ttt执行动作后,环境返回的标量反馈(当日对数收益率);γ\gammaγ是折扣因子(Discount Factor),0≤γ≤10 \le \gamma \le 10γ1,用于降低未来奖励的重要性,使问题有界且符合人类“重视当下”的偏好;γt\gamma^tγt,折扣权重,时间越远的奖励,权重越小(指数衰减);∑γtrt\sum \gamma^tr_tγtrt是折扣累积回报(Discounted Return),表示 Agent 从初始状态开始,按策略执行到终止(或截断),所获得的总“价值”。

  • 如果用简单收益率,代理优化的是"各期简单收益之和",但这不等于终端资产。例如连续两天 +50% 和 -50%,简单收益之和为0,但实际资产变为 1.5×0.5=0.751.5×0.5=0.75 ,亏损25%。

  • 对数收益率之和 = log⁡(终值/初值),严格等价于最大化终端财富的对数,这正是投资组合理论中 Kelly Criterion 的最优目标。

2. 为什么要「裁剪(Clip)」?

对数收益率虽然解决了可加性和对称性问题,但引入了新的风险:
当portfolio_value→0时,log⁡(portfolio_value/pre_value)→−∞ 当 \mathrm{portfolio\_value} \rightarrow 0 时,\log(\mathrm{portfolio\_value}/\mathrm{pre\_value}) \rightarrow -\inftyportfolio_value0时,log(portfolio_value/pre_value)
这在训练中会导致:

  • 梯度爆炸:一次极端亏损产生的巨大负奖励会摧毁网络权重
  • 价值函数发散:Critic 网络无法拟合包含-inf的目标值
  • 探索崩溃:Agent 因恐惧极端惩罚而退化为"永远持有现金"的保守策略

裁剪操作np.clip(log_ret, -max_log_return, max_log_return)的作用:将奖励限制在有限区间内,保留方向信号的同时消除数值灾难。

max_log_return=0.5对应单步约 ±65% 的涨跌幅,对于日频交易数据已远超正常范围,既不会丢失有效信息,又能完全屏蔽异常值。

3. 为什么不直接用简单收益率 + 裁剪?

你可能会想:那直接clip(simple_return, -0.5, 0.5)不也行吗?

答案是可以,但次优。因为即使裁剪了,简单收益率仍然缺乏时间可加性。Agent 在训练中学到的"最优策略"仍然是对简单收益求和的最优,而非对终端资产的最优。在长周期任务中,这种偏差会持续累积。

实践建议:如果你的环境是日频且杠杆不高,简单收益率裁剪后也能工作;但如果涉及高频、杠杆或长episode,裁剪对数收益率是业界标准做法(FinRL、TensorTrade 等主流框架均采用此方案)。

http://www.gsyq.cn/news/1501404.html

相关文章:

  • 本地一键运行的PHP图书管理源码包(XAMPP环境+MySQL数据库+详细操作指南)
  • 2026年 EVA硬壳盒厂家推荐榜单:深圳迷你无人机/羽毛球拍/筋膜枪/泳镜收纳盒精选品牌实力解析 - 品牌发掘
  • 6 硬件工程师笔面试高频考点真题解析——MOS管
  • 高效社交媒体数据采集终极指南:snscrape实战应用全解析
  • 数据的加密与解密(03:21)
  • 计算机毕业设计之基于spark的去哪儿可视化系统的设计与实现
  • ArcGIS Pro插件实战:用C#给SHP和GDB图层批量添加‘身份证’(名称+路径字段)
  • 别再只调参了!用ODConv这个‘万金油’模块,轻松给你的CNN模型涨点(PyTorch实战)
  • 如何快速配置黑苹果:OpCore-Simplify让OpenCore EFI创建变得简单
  • 影刀RPA进阶教程_截图与OCR文字识别在自动化中的实战应用
  • 小玄猪多商户小程序源码:TP6后端+Vue前端,支持分销裂变与S2B2C模式
  • 足式机器人混合驱动系统的解耦控制与CRD-MPC优化
  • 新型 Windows Defender 零日漏洞“RoguePlanet”可授予攻击者系统访问权限
  • 河北本地拍卖资质代办行业服务能力与机构对比分析报告(2026年版) - 优质品牌商家
  • 2026年当前移动房屋品牌公司哪家专业?品牌深度解析与选购指南 - 品牌鉴赏官2026
  • QQ空间历史说说一键备份:3步搞定青春记忆的永久保存秘籍
  • 2026年 过滤筛厂家推荐榜单:河南液体过滤筛/浆液过滤筛/豆浆过滤筛/不锈钢小型单层过滤筛精密之选 - 品牌发掘
  • 上海地区苹果应用上架服务市场格局与选择参考(2026年) - 优质品牌商家
  • 2026年近期甘孜地区建筑翻新与文旅项目仿古门窗专业服务商解析 - 品牌鉴赏官2026
  • Squirrel-RIFE:5大核心功能让视频流畅度提升300%的终极免费方案
  • 模板驱动型文档自动化:结构化填充与零错误PDF生成
  • 终极指南:如何用drawio-desktop免费创建专业图表和流程图
  • 深度解析ViVeTool-GUI:Windows隐藏功能管理的专业技术指南
  • LibreSignage:5分钟搭建免费开源数字标牌系统的完整指南
  • Linux下rsync + inotify 实时文件同步方案
  • 手把手复现:用Python仿真5G/WiFi 6中的相位噪声与CPE补偿(附完整代码)
  • 向量数据库中的过滤近似最近邻搜索技术解析
  • 荣昌全屋整装哪家好?2026年本地供应厂家综合实力分析 - 优质品牌商家
  • Redis 从入门到精通:Python 操作 Redis 进阶
  • Spring Boot项目里用Netty手搓MQTT客户端,从连接、订阅到消息重发,一个完整Demo的踩坑实录