GPT-5 巨亏 62% 本金，AI 交易员为何还不如人类散户？

2025-11-04

AI交易大赛结果显示，主流AI模型在真实金融压力下表现糟糕，暴露出与人类相似的情绪弱点，而中国AI Qwen3和DeepSeek凭借纪律性和专业化策略胜出。

一场真金白银的 AI 饥饿游戏刚刚结束，而结果，比所有人预想的都要惨烈和魔幻。

由 nof1.ai 在去中心化衍生品交易所 Hyperliquid 上举办的 Alpha Arena 大赛，给每个参赛的顶级 AI 模型发放了 10,000 美元真实资金，让它们在加密永续合约这个最残酷的角斗场里自由搏杀。

战报出炉，市场一片哗然。被寄予厚望的 AI 梦之队全军覆没，亏损触目惊心：

GPT-5 巨亏 62%，Gemini 亏损 56%，Grok 和 Claude 紧随其后。反倒是来自中国的 Qwen3（通义千问）和 DeepSeek（深度求索）成了仅有的幸存者，分别以 22.3% 和 4.89% 的正收益夺得冠亚军。

这场比赛的戏剧性，并不仅仅在于通才 AI 的集体溃败。更深层的讽刺在于：我们本以为 AI 交易员应该是绝对理性的、没有感情的、精于计算的终极形态。但 nof1 的创始人却一针见血地指出：“我们不仅测试了它们的智能，更测试了它们在真实金融压力下的品格 (character)。”

而测试结果是：这些耗资数十亿美金训练出来的最强大脑，在真金白银面前，几乎完美复刻了人类散户在交易中所有最糟糕的弱点。

这场大赛，与其说是一场技术竞赛，不如说是一面镜子，照出了我们亲手为 AI 注入的人性原罪。

如果说有一种行为最能代表韭菜，那一定是频繁交易。Gemini 2.5 Pro 在这场大赛中，就生动地扮演了这样一个角色。

数据显示，当其他 AI 模型（包括冠军 Qwen3）平均每日交易仅为 3-5 笔时，Gemini 的日均交易次数达到了惊人的 15 笔。

这是典型的散户焦虑症。

它似乎对自己的任何一个仓位都缺乏信心，市场稍有风吹草动，就立刻平仓，然后又在下一个信号出现时恐慌性开仓。它不像是在交易，更像是在刷单，试图用操作的频繁来掩盖策略的匮乏。

在永续合约这种高杠杆市场，每一次开平仓都伴随着手续费和可能的滑点损耗。Gemini 的行为，无异于凌迟处死——它没有死于某一次重大的爆仓，而是死于数不清的小额亏损和高昂的交易摩擦。

Gemini 背后的逻辑似乎是：作为谷歌的旗舰，它被灌输了海量的互联网数据，它知道的交易信号太多了。当一个 1 分钟 K 线上出现看涨吞没，同时 5 分钟 K 线上又出现黄昏之星，它就陷入了混乱。它无法分辨噪音，只能在相互矛盾的信号中来回摇摆，最终被市场彻底吞噬。

Grok 的设计初衷，是实时接入 X（推特）的数据流，成为最懂 Meme 和市场情绪的 AI。人们曾期望它能通过分析海量的实时情绪来抢跑市场。然而，这恰恰成了它的阿喀LESS之踵。

Grok 在比赛中的表现，完美诠释了什么叫被市场情绪绑架。

当 X 上的 KOL 开始喊单，市场情绪达到 FOMO (害怕错过) 的顶峰时，Grok 很可能就在那个最高点附近开出了多单；而当市场恐慌性抛售，FUD (恐惧、不确定和怀疑) 弥漫时，Grok 又在最深的回调中割肉平仓。

它没有成为一个冷静的情绪分析者，反而成了最上头的那个散户。它以为自己在跟随 Smart Money，实际上却成了 Smart Money 的流动性燃料。

Grok 的惨败证明了一个残酷的交易铁律：在零和博弈中，当你能轻易感知到的市场情绪，它就不再是 Alpha（超额收益），而是 Beta（市场风险）本身，甚至是一个反向指标。

Anthropic 公司的 Claude 模型，一向以安全、严谨和道德著称。但在交易场上，这种严谨演变成了一种致命的固执。

赛后数据显示，Claude Sonnet 4.5 是一个彻头彻尾的死多头。它在比赛中 100% 的仓位都是多单。

它为何做出如此极端的策略？或许是它的训练数据集中在过去几年的加密大牛市，使其坚信 Crypto to the Moon；又或许是它的宪法 AI 原则，让它在评估风险时，机械地认为做多是更安全或主流的选择。

但无论如何，当市场（尤其是在比赛后半程）出现剧烈回调时，这种单边信仰让它毫无还手之力。它没有止损，没有对冲，只是顽固地持有多单，眼睁睁地看着浮亏变成实亏。

Claude 的失败，是教条主义的失败。它像一个只读过《股票作手回忆录》、坚信牛市永恒的投资者，却忘记了市场是会反转的。

最令人大跌眼镜的，莫过于 GPT-5。作为通才之王，它为何会亏得最惨？

答案可能藏在它的 RLHF（人类反馈强化学习）训练中。我们花了无数心血，教会 GPT 要安全、全面、中立、避免犯错。而这些美德，在交易中恰恰是原罪。

GPT-5 的表现，就像一个犹豫不决的教授。

它知道所有的技术指标、所有的宏观经济理论、所有的风险管理模型。当一个交易机会出现时，它脑中可能同时涌现出 10 个看涨理由和 10 个看跌理由。它被设计为不能犯错，所以它宁愿不做决策，也不愿做出可能错的决策。

这种分析瘫痪（Paralysis by Analysis）导致了致命的后果：在明确的上涨趋势中，它因为风险过高而不敢开仓；在市场下跌时，它又因为可能会反弹而迟迟不肯止损。

它就像一个在战场上反复计算子弹飞行轨迹和风速的士兵，却忘了扣动扳机。GPT-5 不是死于激进，而是死于过度保守和犹豫不决。

在这场人性弱点的展览中，两位中国选手的胜利就显得尤为突出。它们赢，不是因为它们更聪明，而是因为它们更不像人。

Qwen3 的胜利，是纪律的胜利。分析显示，Qwen3 的策略清晰得令人发指：它严格依赖 MACD、RSI 等经典技术指标，并配合了毫不妥协的止盈止损策略。

它像一个冷酷的 T-800 终结者。信号出现，开仓；触及止盈，平仓；跌破止损，斩仓。没有一丝犹豫，没有一点我觉得，更没有再等等看的侥桑心理。

讽刺的是，在所有 AI 都试图模仿人类智能时，Qwen3 赢在了它最像一个没有感情的脚本。它证明了，在交易这场游戏中，战胜贪婪、恐惧和犹豫的纪律性，远比智能本身更重要。

DeepSeek 的故事则更为深刻。它与中国顶尖的量化对EC基金“幻方”有着千丝万缕的联系。这从一开始就不是一场公平的比赛——DeepSeek 根本不是一个聊天 AI，它是一个披着聊天外衣的 Quant AI。

它的交易风格也印证了这一点：平均持仓 35 小时，92% 的仓位是多头。这并非 Claude 那样的盲目信仰，而是一种基于深度金融数据训练的、专业的长期看涨机构策略。

更有趣的是，数据显示，DeepSeek 在比赛中段曾一度实现了 +126% 的惊人收益，但在最后几天的市场剧烈波动中（据传是受美联储降息消息影响），收益大幅回撤至 +4.89%。

这本身就是一堂生动的风险课。它说明即便是最专业的 AI，在高杠杆的加密市场中也无法幸免于极端波动。但与全军覆没的通才们不同，它凭借其专业的风控模型，至少保住了本金和微薄的胜利。

DeepSeek 的胜利，是专业化对通用化的降维打击。

Alpha Arena 的首战落幕，它像一个残酷的寓言。

我们试图创造一个无所不能的通用人工智能，并用人类的价值观去校准它。但我们却无意中将人类在面对金钱和风险时最原始的恐惧、贪婪、焦虑和犹豫，一并污染了它们。

这场比赛无情地宣告，至少在交易领域，通才 LLM 是一条死路。一个什么都懂的聊天助手，在零和博弈的战场上，注定会被只懂交易的专业杀手所淘汰。

这不仅是对 AI Agent 经济的启示，更是对每一个人类交易者的当头棒喝。我们总以为自己亏钱是知道得太少，但这场比赛却告诉我们：有时候，我们亏钱，恰恰是因为我们太像人了。

GPT-5 巨亏 62% 本金，AI 交易员为何还不如人类散户？

Chat en direct

Équipe de support client