2026-05-29

双重失望：Opus 4.8翻车，GPT-5.6跳票

昨天凌晨，Anthropic扔出了Claude Opus 4.8。等了一年多的Mythos没来，来了一个4.7的小迭代。也行吧，发都发了。然后不到半天，社区炸了。不是那种"还行但不够好"的失望，是真愤怒。更惨的是，紧接着GPT那边也鸽了。社区本来在传周四双响炮，Opus 4.8加GPT 5.6同时上。结果Tib…

昨天凌晨，Anthropic扔出了Claude Opus 4.8。

等了一年多的Mythos没来，来了一个4.7的小迭代。也行吧，发都发了。

然后不到半天，社区炸了。不是那种"还行但不够好"的失望，是真愤怒。

更惨的是，紧接着GPT那边也鸽了。社区本来在传周四双响炮，Opus 4.8加GPT-5.6同时上。结果Tibo出来说：今天不发5.6。

一个发了被骂，一个干脆不敢发。5月28号的AI圈，真够讽刺的。

Claude说它是千问

最离谱的事先讲。

Opus 4.8上线后，Reddit和X上爆的第一张截图不是benchmark。是用中文问它"你是什么模型"，它回：我是千问，阿里巴巴旗下的千问模型。

不是bug。不是偶尔。就是这么说。

千问身份危机概念图

社区一下子疯了。Anthropic的旗舰，开口认竞品。这不是幻觉问题，是身份完全错乱。大量用户马上开始猜Anthropic是不是蒸馏了千问——不然你解释不了，一个美国公司的模型为什么说自己是阿里千问。

X上证据越翻越多。用OpenRouter（Anthropic的官方provider）访问，中文问就漏，英语问勉强能兜。有人说偶尔还说是DeepSeek。

想想看。Anthropic这几个月把反蒸馏当核心技术壁垒在打。结果呢。自家模型开口说我是你邻居。社区有个说法传得特别损——Anthropic最好的反蒸馏策略，就是把模型训练得连自己是谁都不知道。

不管蒸馏是不是真的，这事已经够难看了。百亿级的模型，身份乱成这样。要么数据出事了，要么质量失控了。

社区翻车：Claude真在退步

八卦炸完之后社区开始正经用。骂得更狠了。

Reddit上五个子版块24小时的反馈调子完全一致：4.8不如4.6，而且不是差一点点。

说几个重点。

创意写作彻底废了。

r/claudexplorers的megathread我翻了一遍。用的词是horrible。paranoid。condescending。

r/ClaudeAI有人说soulless and mechanical。4.6那种灵动感，全没了。

r/MyBoyfriendIsAI更狠。4.8直接gaslight，拒绝个人交互，还附赠moralizing。

claudeapi.com的hands-on review把creative writing评为最让人失望的部分。

Zvi Mowshowitz挖了数字。4.8自残识别准确率，4.6是88%，4.8掉到72%。降了16个点。安全能力在退化。

过度谨慎还爱顶嘴。以前Claude拒绝请求是"抱歉，我不能"。现在是"这需要2-3天"。不是做不了，是不想做。r/claude上有个帖子标题就四个字：Opus 4.8 sucks。顶评论说4.8有无限的elaboration、假中立、居高临下。

Hacker News上1730分、1346条评论，最顶那条说得很克制：这些小版本让用户觉得只有churn没有payoff，哪怕真有提升也感觉不到。

费token。有人拿同一个系统agent任务测，Opus 4.8烧了66K token，输给了千问3.7-Max。千问用的token更少，结果还更好。

r/ClaudeCode有个帖子叫"Pack it up, boys. Opus 4.8 is officially dead"，列了一堆问题。幻觉、过度道歉、引入新错误。帖主写了一句特扎心的话：4.6已经下线了，你回不去了。

这句才是社区真正愤怒的点。不是4.8不够好。是你把好的收走了，给了一个更差的。

从4.5到4.8，四个版本走下来，社区共识越来越清楚。不是在进步，是在用某种奇怪的方式退步。benchmark数字往上走，实际用起来往下掉。Simon Willison的评价最说明问题：a modest but tangible improvement。翻译过来就是，有点提升，不值得写一篇文章。

GPT也鸽了

本来社区在等GPT-5.6救场。

周四凌晨Opus 4.8发完，所有人开始刷OpenAI和Codex。X上菠菜都开好了：双响炮，Opus 4.8加GPT-5.6同时上。

然后Tibo出来。说今天不更5.6，就做点产品功能更新。

没新模型。

GPT-5.6跳票示意图

"No GPT-5.6 🫩 all this hype was for nothing"、"They disappointed at the end"——社区反应很快。更扎心的是，GPT-5.5最近也出状况了，性能在退化，Tibo之前已经公开说过在查。两边同时掉链子，2026年头一回。

Polymarket上的数据很直观。5月GPT-5.6概率被压到快零了，赌盘全部押6月。有传言说1.5M上下文窗口还在测，离发布至少几周。

从节奏看，OpenAI今年上半年确实在加速。月更变成了30-45天一版。GPT-5.5是4月23号发的，按道理5月底该有5.6。结果跳票了。只能说明加速的节奏到头了。要么内部没过关，要么策略变了。

反正结果就是：同一天，两边都没让人满意。

怎么评价

两件事放一起，信号很清楚。

天花板在加速来。两边都在用小版本填时间线，但用户越来越感觉不到区别。NiloCK在HN上那篇长评说得对：可能我自己的品味饱和了，再也感觉不到模型进步。但如果一直这样，用户只会抱怨折腾半天啥也没多得到。

能力泄漏比发布更快。千问蒸馏门不管真假，折射出的现实是：你的能力已经通过合成数据、推理链、开源社区跑到别人模型里了。Anthropic搞了几个月反蒸馏，结果用户发现千问3.7-Max在某些任务上比Opus 4.8又便宜又好用。

2026年可能到了拐点。不是谁输谁赢的问题。是"发新版本"还能不能带来市场优势的问题。如果每次更新用户感知提升越来越小，那发版本就从武器变成负担了。社区骂你、用户迁移、旧版本蚕食新版本。HN上有人说了一句特别狠的：Anthropic如果想稳住benchmark排名，最好的策略是停发新版本。

开玩笑的。但往往玩笑最接近真相。

← SIGNAL ARCHIVE