2026-05-27
国产模型杀进全球前四:千问3.7 Arena第4,MiniMax M3官宣coming
两条消息同一天出来,一条让人振奋,一条让人期待。 第一条:千问3.7 Max在Chatbot Arena的 Code Arena: Frontend 细分领域冲到 第4名 ,分数1541,离第3的Claude Opus 4.6只差 1分 。更值得关注的是,在Code Arena的整体排名中,千问3.7 Max进入了…
两条消息同一天出来,一条让人振奋,一条让人期待。
第一条:千问3.7 Max在Chatbot Arena的Code Arena: Frontend细分领域冲到第4名,分数1541,离第3的Claude Opus 4.6只差1分。更值得关注的是,在Code Arena的整体排名中,千问3.7-Max进入了全球前二(仅次于Claude Opus系列),这是所有中国模型在编程类榜单上的最高排名。
第二条:MiniMax官方发推说"This marks the end of the M2 series, MiniMax-M3 is coming",同时还提到MSA论文在路上。M2系列正式收官,M3即将登场。
两件事放一起看,一个信号越来越明显:国产大模型不再是"追赶者",已经开始在全球第一梯队里占位置了。
千问3.7,到底什么水平?
先泼个冷水:千问3.7这个"第4",不是总榜第4,是Code Arena: Frontend这个细分领域的第4。
但别急着失望。这个细分领域恰恰是最值钱的一个——它测的不是聊天,是AI Agentic Web Development,也就是让AI自主完成前端开发任务。
具体什么意思?你给AI一个需求描述,让它自己写代码、调试、改bug、完成一个可运行的网页应用。这个测试里,AI不能求助,不能换模型,必须独立完成从需求到交付的全流程。
在这个场景下,千问3.7 Max得分1541,比GLM-5.1高,比Gemini 3.5 Flash高,比GPT-5.5也高。它前面只有Claude Opus 4.6(1542分)、Claude家族的几个变体,和排第一的某个未公开模型。
1分的差距,说难听点叫"还差一点",说好听点叫"几乎没差距"。如果你让AI写一个React组件,千问3.7和Claude Opus 4.6写出来的东西,质量已经很难肉眼区分了。
Arena.ai的官方账号发了祝贺帖:


"Qwen3.7 Max debuts at #4 in Code Arena: Frontend - the top-ranked Chinese lab on the board, surpassing GLM-5.1 and is now on par with Claude Opus 4.6 on agentic web development tasks."
注意措辞:"on par with",平起平坐。Arena的官方认证账号用的是这个词,不是"接近",不是"有望赶超"。
MiniMax M3,来的不是时候?
MiniMax M2系列是去年12月才开源的,到现在满打满算半年。半年就宣布收官、准备M3,这个迭代速度放在整个AI圈里都算快的。
Skyler Miao(MiniMax工程负责人)在5月26日先发了张图,配文"Something BIG is coming",带#MSA #OpenSource #M3三个标签。第二天(5月27日),MiniMax官方账号转发确认:"This marks the end of the M2 series, and MiniMax-M3 is coming."
Ryan Lee(MiniMax DevRel负责人)补了一条详细的说明:M2论文已经整理完发到了arXiv,过去半年M2的开源成果(CISPO、Forge RL System、Self-Evolution)都被社区广泛采用了,"Nearly every model release reached the #1 spot on the Hugging Face leaderboard"。现在MSA论文在路上,M3准备接棒。

MiniMax M3官宣:Skyler Miao teaser图和官方引用帖
MSA是什么?MiniMax Sparse Attention,他们自己研发的稀疏注意力架构。社区讨论里有人提到,这个架构的目标是实现1M token超长上下文,而且速度快得多——相比于M2,据说在1M token场景下,prefill速度快了约9.7倍,decoding速度快了约15.6倍。

如果这是真的,那M3可能会是第一个在1M上下文场景下还能保持实用速度的模型。目前Claude的200K上下文已经很牛了,但1M是另一个级别——你可以把整个代码库扔进去让AI读,把整本技术文档扔进去问答,把整个项目历史扔进去分析。
MiniMax没有给M3的具体发布时间,只说了"coming"和"MSA paper is on the road"。按照他们的节奏,可能几周内会有新消息。
国产模型,真的站起来了?
先别急着唱赞歌,把事实理清楚。
千问3.7确实很强,但它强在编程/Agent场景,不是全面碾压。总榜上它排第6左右,聊天、多模态等维度上它和Claude、GPT系列还有差距。
MiniMax M3值得期待,但还没发,一切 speculation 都是 speculation。MSA架构的1M token目标听起来很厉害,但能不能真正实现、推理成本能不能控制住、开源社区买不买账,都是未知数。
不过有一点是确定的:国产模型已经不再是"便宜但差劲"的代名词了。
DeepSeek以性价比著称,千问3.7以编程能力见长,MiniMax以迭代速度和开源社区活跃度出名。三个路线三条赛道,但都在往上走。
更关键的是,它们都在挑战Claude和GPT的霸主地位。以前大家说"大模型三强",默认指的是Claude、GPT、Gemini。现在Gemini掉队越来越明显(Arena排名下滑、产品更新节奏放缓),千问和MiniMax正在补上这个位置。

从"前三"到"前五",国产模型占了两席,这不是小进步。
对开发者意味着什么?
如果你是独立开发者或者技术PM,这几件事对你有直接影响:
**第一,选型空间变大了。**以前做Agent开发,闭眼选Claude系列。现在千问3.7的编程能力已经"on par with Claude",而且价格只有Claude的1/5到1/10。用千问做工具开发、前端生成、代码重构,性价比很高。
**第二,国产模型的迭代速度在加速。**MiniMax半年一换代,千问3.7才出来几天就冲到Arena前几。这种节奏下,选模型的策略要从"谁最强"转向"谁迭代最快、我最能快速试错"。
**第三,不要过早锁定。**API价格各家都在降,DeepSeek和MiMo已经把价格压到很低。但能力差距在缩小,价格战可能是暂时的,谁最终能维持性价比优势还不好说。建议多接几家API,保持灵活性。