2026-05-29
双重失望:Opus 4.8翻车,GPT-5.6跳票
昨天凌晨,Anthropic扔出了Claude Opus 4.8。 等了一年多的Mythos没来,来了一个4.7的小迭代。也行吧,发都发了。 然后不到半天,社区炸了。不是那种"还行但不够好"的失望,是真愤怒。 更惨的是,紧接着GPT那边也鸽了。社区本来在传周四双响炮,Opus 4.8加GPT 5.6同时上。结果Tib…
昨天凌晨,Anthropic扔出了Claude Opus 4.8。
等了一年多的Mythos没来,来了一个4.7的小迭代。也行吧,发都发了。
然后不到半天,社区炸了。不是那种"还行但不够好"的失望,是真愤怒。
更惨的是,紧接着GPT那边也鸽了。社区本来在传周四双响炮,Opus 4.8加GPT-5.6同时上。结果Tibo出来说:今天不发5.6。
一个发了被骂,一个干脆不敢发。5月28号的AI圈,真够讽刺的。
Claude说它是千问
最离谱的事先讲。
Opus 4.8上线后,Reddit和X上爆的第一张截图不是benchmark。是用中文问它"你是什么模型",它回:我是千问,阿里巴巴旗下的千问模型。
不是bug。不是偶尔。就是这么说。

社区一下子疯了。Anthropic的旗舰,开口认竞品。这不是幻觉问题,是身份完全错乱。大量用户马上开始猜Anthropic是不是蒸馏了千问——不然你解释不了,一个美国公司的模型为什么说自己是阿里千问。
X上证据越翻越多。用OpenRouter(Anthropic的官方provider)访问,中文问就漏,英语问勉强能兜。有人说偶尔还说是DeepSeek。
想想看。Anthropic这几个月把反蒸馏当核心技术壁垒在打。结果呢。自家模型开口说我是你邻居。社区有个说法传得特别损——Anthropic最好的反蒸馏策略,就是把模型训练得连自己是谁都不知道。
不管蒸馏是不是真的,这事已经够难看了。百亿级的模型,身份乱成这样。要么数据出事了,要么质量失控了。
社区翻车:Claude真在退步
八卦炸完之后社区开始正经用。骂得更狠了。
Reddit上五个子版块24小时的反馈调子完全一致:4.8不如4.6,而且不是差一点点。
说几个重点。
创意写作彻底废了。
r/claudexplorers的megathread我翻了一遍。用的词是horrible。paranoid。condescending。
r/ClaudeAI有人说soulless and mechanical。4.6那种灵动感,全没了。
r/MyBoyfriendIsAI更狠。4.8直接gaslight,拒绝个人交互,还附赠moralizing。
claudeapi.com的hands-on review把creative writing评为最让人失望的部分。
Zvi Mowshowitz挖了数字。4.8自残识别准确率,4.6是88%,4.8掉到72%。降了16个点。安全能力在退化。
过度谨慎还爱顶嘴。以前Claude拒绝请求是"抱歉,我不能"。现在是"这需要2-3天"。不是做不了,是不想做。r/claude上有个帖子标题就四个字:Opus 4.8 sucks。顶评论说4.8有无限的elaboration、假中立、居高临下。
Hacker News上1730分、1346条评论,最顶那条说得很克制:这些小版本让用户觉得只有churn没有payoff,哪怕真有提升也感觉不到。
费token。有人拿同一个系统agent任务测,Opus 4.8烧了66K token,输给了千问3.7-Max。千问用的token更少,结果还更好。
r/ClaudeCode有个帖子叫"Pack it up, boys. Opus 4.8 is officially dead",列了一堆问题。幻觉、过度道歉、引入新错误。帖主写了一句特扎心的话:4.6已经下线了,你回不去了。
这句才是社区真正愤怒的点。不是4.8不够好。是你把好的收走了,给了一个更差的。
从4.5到4.8,四个版本走下来,社区共识越来越清楚。不是在进步,是在用某种奇怪的方式退步。benchmark数字往上走,实际用起来往下掉。Simon Willison的评价最说明问题:a modest but tangible improvement。翻译过来就是,有点提升,不值得写一篇文章。
GPT也鸽了
本来社区在等GPT-5.6救场。
周四凌晨Opus 4.8发完,所有人开始刷OpenAI和Codex。X上菠菜都开好了:双响炮,Opus 4.8加GPT-5.6同时上。
然后Tibo出来。说今天不更5.6,就做点产品功能更新。
没新模型。

"No GPT-5.6 all this hype was for nothing"、"They disappointed at the end"——社区反应很快。更扎心的是,GPT-5.5最近也出状况了,性能在退化,Tibo之前已经公开说过在查。两边同时掉链子,2026年头一回。
Polymarket上的数据很直观。5月GPT-5.6概率被压到快零了,赌盘全部押6月。有传言说1.5M上下文窗口还在测,离发布至少几周。
从节奏看,OpenAI今年上半年确实在加速。月更变成了30-45天一版。GPT-5.5是4月23号发的,按道理5月底该有5.6。结果跳票了。只能说明加速的节奏到头了。要么内部没过关,要么策略变了。
反正结果就是:同一天,两边都没让人满意。
怎么评价
两件事放一起,信号很清楚。
天花板在加速来。两边都在用小版本填时间线,但用户越来越感觉不到区别。NiloCK在HN上那篇长评说得对:可能我自己的品味饱和了,再也感觉不到模型进步。但如果一直这样,用户只会抱怨折腾半天啥也没多得到。
能力泄漏比发布更快。千问蒸馏门不管真假,折射出的现实是:你的能力已经通过合成数据、推理链、开源社区跑到别人模型里了。Anthropic搞了几个月反蒸馏,结果用户发现千问3.7-Max在某些任务上比Opus 4.8又便宜又好用。
2026年可能到了拐点。不是谁输谁赢的问题。是"发新版本"还能不能带来市场优势的问题。如果每次更新用户感知提升越来越小,那发版本就从武器变成负担了。社区骂你、用户迁移、旧版本蚕食新版本。HN上有人说了一句特别狠的:Anthropic如果想稳住benchmark排名,最好的策略是停发新版本。
开玩笑的。但往往玩笑最接近真相。