2026-05-27

国产模型杀进全球前四：千问3.7 Arena第4，MiniMax M3官宣coming

两条消息同一天出来，一条让人振奋，一条让人期待。第一条：千问3.7 Max在Chatbot Arena的 Code Arena: Frontend 细分领域冲到第4名，分数1541，离第3的Claude Opus 4.6只差 1分。更值得关注的是，在Code Arena的整体排名中，千问3.7 Max进入了…

两条消息同一天出来，一条让人振奋，一条让人期待。

第一条：千问3.7 Max在Chatbot Arena的Code Arena: Frontend细分领域冲到第4名，分数1541，离第3的Claude Opus 4.6只差1分。更值得关注的是，在Code Arena的整体排名中，千问3.7-Max进入了全球前二（仅次于Claude Opus系列），这是所有中国模型在编程类榜单上的最高排名。

第二条：MiniMax官方发推说"This marks the end of the M2 series, MiniMax-M3 is coming"，同时还提到MSA论文在路上。M2系列正式收官，M3即将登场。

两件事放一起看，一个信号越来越明显：国产大模型不再是"追赶者"，已经开始在全球第一梯队里占位置了。

千问3.7，到底什么水平？

先泼个冷水：千问3.7这个"第4"，不是总榜第4，是Code Arena: Frontend这个细分领域的第4。

但别急着失望。这个细分领域恰恰是最值钱的一个——它测的不是聊天，是AI Agentic Web Development，也就是让AI自主完成前端开发任务。

具体什么意思？你给AI一个需求描述，让它自己写代码、调试、改bug、完成一个可运行的网页应用。这个测试里，AI不能求助，不能换模型，必须独立完成从需求到交付的全流程。

在这个场景下，千问3.7 Max得分1541，比GLM-5.1高，比Gemini 3.5 Flash高，比GPT-5.5也高。它前面只有Claude Opus 4.6（1542分）、Claude家族的几个变体，和排第一的某个未公开模型。

1分的差距，说难听点叫"还差一点"，说好听点叫"几乎没差距"。如果你让AI写一个React组件，千问3.7和Claude Opus 4.6写出来的东西，质量已经很难肉眼区分了。

Arena.ai的官方账号发了祝贺帖：

Arena.ai官方推文截图：Qwen3.7 Max Code Arena Frontend第4

Code Arena Frontend排名榜：千问3.7 Max第4名 vs Claude Opus 4.6对比

"Qwen3.7 Max debuts at #4 in Code Arena: Frontend - the top-ranked Chinese lab on the board, surpassing GLM-5.1 and is now on par with Claude Opus 4.6 on agentic web development tasks."

注意措辞："on par with"，平起平坐。Arena的官方认证账号用的是这个词，不是"接近"，不是"有望赶超"。

MiniMax M3，来的不是时候？

MiniMax M2系列是去年12月才开源的，到现在满打满算半年。半年就宣布收官、准备M3，这个迭代速度放在整个AI圈里都算快的。

Skyler Miao（MiniMax工程负责人）在5月26日先发了张图，配文"Something BIG is coming"，带#MSA #OpenSource #M3三个标签。第二天（5月27日），MiniMax官方账号转发确认："This marks the end of the M2 series, and MiniMax-M3 is coming."

Ryan Lee（MiniMax DevRel负责人）补了一条详细的说明：M2论文已经整理完发到了arXiv，过去半年M2的开源成果（CISPO、Forge RL System、Self-Evolution）都被社区广泛采用了，"Nearly every model release reached the #1 spot on the Hugging Face leaderboard"。现在MSA论文在路上，M3准备接棒。

MiniMax官推截图：M3 is coming，Skyler Miao teaser图

MiniMax M3官宣：Skyler Miao teaser图和官方引用帖

MSA是什么？MiniMax Sparse Attention，他们自己研发的稀疏注意力架构。社区讨论里有人提到，这个架构的目标是实现1M token超长上下文，而且速度快得多——相比于M2，据说在1M token场景下，prefill速度快了约9.7倍，decoding速度快了约15.6倍。

MiniMax M3的MSA稀疏注意力架构示意图：1M Token超长上下文提速9.7倍

如果这是真的，那M3可能会是第一个在1M上下文场景下还能保持实用速度的模型。目前Claude的200K上下文已经很牛了，但1M是另一个级别——你可以把整个代码库扔进去让AI读，把整本技术文档扔进去问答，把整个项目历史扔进去分析。

MiniMax没有给M3的具体发布时间，只说了"coming"和"MSA paper is on the road"。按照他们的节奏，可能几周内会有新消息。

国产模型，真的站起来了？

先别急着唱赞歌，把事实理清楚。

千问3.7确实很强，但它强在编程/Agent场景，不是全面碾压。总榜上它排第6左右，聊天、多模态等维度上它和Claude、GPT系列还有差距。

MiniMax M3值得期待，但还没发，一切 speculation 都是 speculation。MSA架构的1M token目标听起来很厉害，但能不能真正实现、推理成本能不能控制住、开源社区买不买账，都是未知数。

不过有一点是确定的：国产模型已经不再是"便宜但差劲"的代名词了。

DeepSeek以性价比著称，千问3.7以编程能力见长，MiniMax以迭代速度和开源社区活跃度出名。三个路线三条赛道，但都在往上走。

更关键的是，它们都在挑战Claude和GPT的霸主地位。以前大家说"大模型三强"，默认指的是Claude、GPT、Gemini。现在Gemini掉队越来越明显（Arena排名下滑、产品更新节奏放缓），千问和MiniMax正在补上这个位置。

国产大模型三强格局图：DeepSeek/千问/MiniMax各赛道领先位置

从"前三"到"前五"，国产模型占了两席，这不是小进步。

对开发者意味着什么？

如果你是独立开发者或者技术PM，这几件事对你有直接影响：

**第一，选型空间变大了。**以前做Agent开发，闭眼选Claude系列。现在千问3.7的编程能力已经"on par with Claude"，而且价格只有Claude的1/5到1/10。用千问做工具开发、前端生成、代码重构，性价比很高。

**第二，国产模型的迭代速度在加速。**MiniMax半年一换代，千问3.7才出来几天就冲到Arena前几。这种节奏下，选模型的策略要从"谁最强"转向"谁迭代最快、我最能快速试错"。

**第三，不要过早锁定。**API价格各家都在降，DeepSeek和MiMo已经把价格压到很低。但能力差距在缩小，价格战可能是暂时的，谁最终能维持性价比优势还不好说。建议多接几家API，保持灵活性。

← SIGNAL ARCHIVE