第405章 《强化学习的赌徒陷阱》(1 / 2)
5月3日上午9点,交易室的空调将温度精准维持在19,出风口的格栅上凝结着细密的水珠,如同一排微型棱镜,将冷白色灯光折射成细碎的光斑。陈默盯着dq算法的训练界面,屏幕上的神经络架构图如复杂的血管脉络,红色的奖励函数曲线在参数调整后微微上扬,仿佛一条警觉的蛇,随时准备发动攻击。
技术总监小李用触控笔圈选佣金参数,笔尖在“万三佣金”的数字上停留:“将每次交易的佣金乘以交易量,作为正向奖励信号,”他的声音带着技术人员特有的兴奋,“高频交易的核心是流动性套利,模型需要学会在买卖价差中捕捉机会。”
林语晨皱眉,指尖在历史佣金支出图表上划出一道陡峭的斜线:“20年量化私募的平均佣金成本占收益的72,”她的白大褂口袋里,i钢笔的刻字在灯光下若隐若现,“过度交易会让利润消耗在手续费上,还记得404章对手盘利用我们的交易频率狙击吗?他们可能正等着我们陷入高频陷阱。”
“先看模拟盘结果,”陈默点击回测启动按钮,金属质感的按钮在指尖发出清脆的“咔嗒”声,“历史数据是最好的试金石。”
回测曲线在20年a股数据中如火箭般上升,模型单日平均交易150笔,夏普比率从3八提升至41。林语晨的表情稍缓,却在切换到2020年负油价场景时骤然凝固——曲线突然垂直下挫,模型在油价暴跌期间逆势加仓,单日亏损扩大至45,交易次数飙升至300笔,如同赌红了眼的赌徒不断加注。
“奖励函数缺陷!”林语晨的指尖几乎戳到屏幕,“模型把交易佣金误判为市场流动性的正向指标,为了赚取奖励而忽视风险,这是典型的‘强化学习赌徒谬误’——算法在自我诱导中走向毁灭。”
午后13点,实盘测试启动。科创板的半导体板块在模型的指令下剧烈震荡,交易室的成交回报界面每秒刷新三次,红色的亏损单如雪花般铺满屏幕。陈默调出交易日志,400次交易中7八为亏损单,佣金成本达万元,占总亏损的32,而手续费支出栏的数字仍在快速跳动。
“看这个,”陈默调出某半导体股票的交易记录,3天内的买卖记录密密麻麻,“三天内被反复买卖27次,净亏损八2,每次交易的盈亏比仅06:1,”他的声音里带着压抑的怒火,指节因用力而泛白,“这不是交易,是算法在自杀式刷佣金,就像赌场里不断押注的赌徒,以为下一把能翻盘。”
小李脸色苍白,手指在键盘上快速敲击,计算损耗率的表格弹出:“按照这个频率,实盘运行一个月将耗尽5的本金,而夏普比率的提升完全被交易成本抵消,我们在为券商打工。”
↑返回顶部↑