覆盖厂商:Anthropic、OpenAI、Google、DeepSeek、阿里、月之暗面、智谱、MiniMax
一、执行摘要
2026 年 Q2 是大模型史上最密集的发布期:3 个月内 8 家旗舰更新,平均不到 2 周一次重大发布。本季度的核心变化:
- 编程能力分化:Claude Opus 4.7 在 SWE-Bench Pro 领先(64.3%),但 Terminal-Bench 2.0 落后 GPT-5.5(69.4 vs 82.7);DeepSeek V4-Pro 在竞技编程 LiveCodeBench 反超所有人(93.5)。
- 长上下文洗牌:Claude Opus 4.7 暴跌(78.3% → 32.2%)、GPT-5.5 翻倍(36.6% → 74%)、DeepSeek V4-Pro 召回率 45% → 97%——长文档场景排名彻底重排。
- 价格战白热化:DeepSeek V4-Pro 比 GPT-5.5 便宜 18-25 倍;MiniMax M2.7 用 10B 激活打到 SWE-Bench Pro 56.22%。
- 战略分化:Anthropic 主动削弱长上下文换编程;OpenAI 重训整合 o 系列;Google 把推理翻倍而价格不变;DeepSeek 受高端芯片掣肘但 MIT 开源。
二、2026 Q2 旗舰发布时间轴
| 日期 | 模型 | 厂商 | 关键亮点 |
|---|---|---|---|
| 02-19 | Gemini 3.1 Pro | ARC-AGI-2 翻倍至 77.1%,GPQA 94.3% 登顶 | |
| 03-xx | MiniMax M2.7 | MiniMax | 仅 10B 激活,SWE-Bench Pro 56.22% |
| 04-02 | Qwen3.6-Plus | 阿里 | 登顶 OpenRouter,单日 1.4T tokens |
| 04-07 | GLM-5.1 | 智谱 | 754B MoE,Code Arena Elo 1530 |
| 04-14 | Kimi K2.6 | 月之暗面 | 1T 参数开源最大规模 |
| 04-16 | Claude Opus 4.7 | Anthropic | SWE-Bench Pro 64.3%,视觉 98.5% |
| 04-23 | GPT-5.5 (Spud) | OpenAI | 完整重训,Terminal-Bench 82.7% |
| 04-24 | DeepSeek V4-Pro | 深度求索 | 1.6T 参数,MIT 开源,价格 1/35 |
三、关键基准测试对比
3.1 编程与 Agent 能力
| 测试项 | Opus 4.7 | GPT-5.5 | Gemini 3.1 | DS V4-Pro | Kimi K2.6 | GLM-5.1 | Qwen3.6+ |
|---|---|---|---|---|---|---|---|
| SWE-Bench Verified | 87.6 | — | 80.6 | 80.6 | 80.2 | — | 77.3 |
| SWE-Bench Pro | 64.3 | 58.6 | 54.2 | — | 58.6 | 58.4 | — |
| Terminal-Bench 2.0 | 69.4 | 82.7 | — | — | — | — | 61.6 |
| LiveCodeBench | — | — | — | 93.5 | — | — | — |
| MCP-Atlas (Agent) | 77.3 | 68.1 | 73.9 | — | — | — | — |
| BrowseComp (搜索) | 79.3 | 89.3 | 85.9 | — | — | — | — |
3.2 推理与知识
| 测试项 | Opus 4.7 | GPT-5.5 | Gemini 3.1 | DS V4-Pro |
|---|---|---|---|---|
| ARC-AGI-2 | 68.8 | 52.9 | 77.1 | — |
| GPQA Diamond | — | — | 94.3 | — |
| Humanity's Last Exam | — | 34.5 | 44.4 | — |
| IMO-AnswerBench | 75.3 | — | — | 89.8 |
| FrontierMath Lv4 | — | 35.4 | — | — |
| HMMT 2026 Feb | — | — | — | 95.2 |
3.3 长上下文能力(关键变化点)
| 测试项 | Opus 4.7 | Opus 4.6 | GPT-5.5 | GPT-5.4 | DS V4-Pro |
|---|---|---|---|---|---|
| MRCR v2 @ 1M | 32.2 ↓↓ | 78.3 | 74.0 ↑↑ | 36.6 | 97 |
| Graphwalks BFS 1M | — | — | 45.4 | 9.4 | — |
| 上下文窗口 | 1M | 1M | 400K | 256K | 1M |
⚠️ Opus 4.7 长上下文是这次最大争议——46 个百分点的暴跌。GPT-5.5 在长上下文方面有质的飞跃,DeepSeek V4-Pro 召回率从 45% 拉到 97% 同样惊艳。
3.4 专业领域
| 测试项 | Opus 4.7 | GPT-5.5 | 说明 |
|---|---|---|---|
| BigLaw (法律) | 90.9 | — | Harvey 法律平台 |
| Finance Agent | 64.4 | — | 金融分析 |
| BixBench (生物信息) | — | 80.5 | 所有模型最高 |
| Vals Index | 71.4 | — | 综合工业基准 |
| CyberGym (网络安全) | 73.1 | 81.8 | — |
四、逐家厂商深度分析
4.1 Anthropic · Claude Opus 4.7
| 属性 | 值 |
|---|---|
| 发布时间 | 2026-04-16 |
| 上下文窗口 | 1M (GA 正式版) |
| API ID | claude-opus-4-7 |
| 知识截止 | 2026-01 |
| 定价 | $5 / $25 per M tokens |
核心定位:这是 2026 Q2 最具争议的发布。Anthropic 在官方公告中明确写明:Opus 4.7 不是 Anthropic 最强的模型,最强是仅向 Apple、Google、Microsoft、Nvidia 等九家合作伙伴开放的 Claude Mythos Preview(SWE-bench 达 93.9%)。他们甚至在训练 4.7 时专门尝试对网络安全攻击能力进行"差异化限制"——这种自我设限在 AI 发布史上罕见。
优势:
- SWE-Bench Pro 64.3%(全球第一,+10.9 个点跃升)
- Vals Index 71.4 综合冠军
- 视觉精度 98.5%(3 倍提升),分辨率从 1.25 MP 升到 3.75 MP
- BigLaw 法律 90.9% / Finance Agent 64.4% 专业领域第一
- xhigh 思考模式 + 输出前自我验证
劣势:
- 长上下文 MRCR 1M 暴跌至 32.2%(4.6 是 78.3%)
- tokenizer 变更隐性涨价 35%
- BrowseComp 搜索能力从 83.7% 退步到 79.3%
- 低 effort 档位性能仅相当于 4.6 的中档
- 国内需中转,封号严格
4.2 OpenAI · GPT-5.5 "Spud"
| 属性 | 值 |
|---|---|
| 发布时间 | 2026-04-23 |
| 上下文窗口 | 400K |
| API ID | gpt-5.5 |
| 知识截止 | 2025-08 |
| 定价 | $5 / $30 per M tokens(5.4 价格翻倍) |
核心定位:代号 Spud,融合 GPT 系列生成能力与 o1 结构化推理框架,2026 年 3 月 24 日完成预训练,是 OpenAI 进入 AGI 冲刺前最后一次大规模基础模型重构。Sam Altman 表态:"OpenAI 必须在相当程度上成为一家 AI 推理公司"。
优势:
- Terminal-Bench 2.0 82.7%(全球第一,远超 Opus 4.7 的 69.4%)
- 长上下文 MRCR 翻倍(36.6% → 74%)
- BixBench 生物信息 80.5% 科研第一
- Graphwalks BFS 1M 从 9.4% 跃升到 45.4%
- CyberGym 网络安全 81.8% 领先
- Agent 自主拆解任务能力强(OpenAI 财务团队用其完成 24,771 份税表审核)
- Codex 集成完整工程工作流
劣势:
- 价格翻倍至 $5/$30(虽然 token 消耗减 40%,实际成本仍涨约 20%)
- SWE-Bench Pro 58.6% 落后 Opus 4.7
- 任务边界依赖强,模糊需求下不会主动补全
- GPT-5.6 已在测试(5.5 出现 goblin/troll 异常痴迷的对齐问题)
- 5.5 Pro 仅企业可用
4.3 Google · Gemini 3.1 Pro
| 属性 | 值 |
|---|---|
| 发布时间 | 2026-02-19(仍 Preview) |
| 上下文窗口 | 1M(部分场景 2M) |
| API ID | gemini-3.1-pro-preview |
| 知识截止 | 2025-01 |
| 定价 | 输入 $2/$4(<200K / >200K),输出 $4/$18 |
核心定位:Google DeepMind 把上周发布的 Gemini 3 Deep Think 背后核心智能公开。Artificial Analysis 智能指数 57,以领先 Claude Opus 4.6 四分位居第一。
优势:
- ARC-AGI-2 77.1%(翻倍登顶,Gemini 3 Pro 是 31.1%)
- GPQA Diamond 94.3% 学术第一
- Humanity's Last Exam 44.4%
- 幻觉率相比 Gemini 3 Pro 降低 38%
- 唯一原生支持文本+图片+音频+视频四模态
- 支持 YouTube URL 直接分析
- 成本仅 Opus 4.6 的 1/6
- APEX-Agents 长链任务 33.5%(接近翻倍)
劣势:
- SWE-Bench Verified 80.6% 编程仅中上
- GDPval 专家任务落后 Sonnet 4.6(1317 vs 1633)
- Deep Think 模式 TTFT 28 秒
- 发布 3 月仍 Preview 状态
- LMArena 文本/编码榜不及 Opus 4.6
4.4 深度求索 · DeepSeek V4-Pro
| 属性 | 值 |
|---|---|
| 发布时间 | 2026-04-24 |
| 参数架构 | MoE 1.6T (激活 49B) |
| 上下文窗口 | 1M |
| API ID | deepseek-v4-pro |
| 知识截止 | 2025-05 |
| 定价 | $0.28 / $1.12 per M tokens(75 折至 5/31) |
| 许可 | MIT 开源 |
核心定位:1.6 万亿参数、100 万 token 原生上下文、80.6% SWE-bench、每百万 token 仅 0.3 美元的 API 价格——开源大模型首次在代码能力上与顶级闭源模型并驾齐驱,同时保持 50 倍成本优势。
优势:
- LiveCodeBench 93.5(#1 全球)
- Codeforces 3206 顶尖水平
- IMO-AnswerBench 89.8%(超过 Opus 4.6 的 75.3%)
- HMMT 2026 Feb 95.2%(数学竞赛接近金牌)
- 长文召回率 45% → 97%
- 价格仅 GPT-5.5 的 1/35
- MIT 完全开源,1.6T 完整权重开放
- SuperCLUE 中文 70.98(国内第一)
劣势:
- 受限于高端算力,Pro 吞吐有限(等下半年昇腾 950 超节点)
- 纯文本模型,不支持视觉输入或多模态识别
- HLE 跨域综合推理落后 GLM 5.1 和 Kimi K2.6
- SWE-Bench Pro 略输 Kimi K2.6
- 正式版仍待 2026 Q3
4.5 阿里 · Qwen3.6-Plus
| 属性 | 值 |
|---|---|
| 发布时间 | 2026-04-02 |
| 上下文窗口 | 1M |
| API ID | qwen3.6-plus |
| 定价 | ¥2 / M 输入(约 $0.28) |
| 许可 | Apache 2.0 开源 |
核心定位:阿里云官方称"目前中国编程能力最强的模型"。发布次日登顶 OpenRouter,单日 Token 消耗突破 1.4 万亿(平台历史纪录),调用量激增 711%。
优势:
- Code Arena 全球第二
- OpenRouter 单日 1.4T tokens 历史纪录
- SWE-bench 修复率 77.3%
- 原生多模态(截图直接生成代码)
- Apache 2.0 开源矩阵最完整(0.5B 到 397B)
- 阿里云加持,国内速度最快
- 适配所有主流 Agent 框架(OpenClaw、Qwen Code、Claude Code、Cline、OpenCode 等)
劣势:
- 基准分接近 Claude 但实测复杂场景差距明显
- Qwen Code 免费配额已停
- 旗舰 Qwen3.6-Max 仍未发布
- HLE 不及 DeepSeek
- API 文档分海外/国内版
4.6 月之暗面 · Kimi K2.6
| 属性 | 值 |
|---|---|
| 发布时间 | 2026-04-14 |
| 参数架构 | MoE 1T (激活 32B) |
| 上下文窗口 | 256K |
| API ID | kimi-k2.6 / kimi-k2.6-thinking |
| 定价 | 输出 ¥27/M(涨价后) |
| 许可 | 开源 |
核心定位:业界总参数量最大的开源模型。月之暗面的"登月计划"新一轮发射,从 K2.5 的"无人绕月"到 K2.6 的"载人绕月"。推理能力夺回国模第一。
优势:
- SWE-Bench Verified 80.2%(接近 Opus 4.6 的 80.8%)
- SWE-Bench Pro 58.6%(与 GLM-5.1 并列开源最佳)
- 推理能力国模第一
- 多模态升级支持图像+视频
- Agent 长程任务稳定性强
- 开源中总参数规模最大
劣势:
- 幻觉控制是软肋,K2.6 在长文本任务上下限和上限差距大
- 同任务消耗 Token 比 K2.5 平均高 1 倍
- 非推理模式输出经常超限(15K 上限)
- 输出涨价至 ¥27
- Kimi Code 额度不透明(¥49 套餐实际仅值 ¥12 的 API)
- 开源中输入价最高($0.95/M)
4.7 智谱 · GLM-5.1
| 属性 | 值 |
|---|---|
| 发布时间 | 2026-04-07 |
| 参数架构 | MoE 754B |
| 上下文窗口 | 200K |
| API ID | glm-5.1 |
| 定价 | $1.26 / $3.96 per M tokens |
| 许可 | 开源 |
核心定位:基于华为芯片训练并开放权重,国内合规性最强。Code Arena Elo 1530 全球第三,独立验证。前端 UI 生成实测最强。
优势:
- Code Arena Elo 1530(全球第三,独立验证)
- 前端 UI / 全栈生成实测领先(TypeScript 类型化组件首次通过)
- SWE-Bench Pro 58.4%
- 华为芯片训练,国产合规最强
- 可一句话生成完整网页
- 编码能力达到 Claude Opus 4.6 的 94.6%
- 组件架构感更强(主动应用组合模式和关注点分离)
劣势:
- 服务器超售严重,白天 <30 TPS(晚上能跑到 100)
- 高峰期 429 错误频发
- 输出价 $3.96 是开源中最贵
- HLE 综合推理仍有差距
- Coding Plan 已涨价 30%
- 套餐限频体验差
4.8 MiniMax · M2.7
| 属性 | 值 |
|---|---|
| 发布时间 | 2026-03 |
| 参数架构 | MoE (激活 10B) |
| 上下文窗口 | 262K |
| 定价 | $0.30 / $1.20 per M tokens |
| 许可 | 开源 |
核心定位:最反直觉的"小钢炮"。仅 10B 激活参数却跑出接近 GLM-5.1 的成绩,MoE 架构路由到专门的专家子网络的胜利。
优势:
- SWE-Bench Pro 56.22%(达到 GLM-5.1 的 94%)
- 激活参数最小(10B),成本最低
- MLE-Bench Lite 66.6%(机器学习工程第二)
- PyTorch 训练代码精度高(梯度累积、AMP 混合精度逻辑正确)
- ¥29/月套餐全场最低
- Hermes Agent 深度集成(6 万+ GitHub Stars)
劣势:
- 纯文本能力略弱于 DeepSeek/Kimi
- 品牌知名度低
- 套餐 5 小时窗口刷新麻烦
- 复杂任务深度不足
- API 文档相对简陋
五、价格与算力配套对比
5.1 API 定价(每百万 token,USD)
| 模型 | 输入 | 输出 | 上下文 | 开源 |
|---|---|---|---|---|
| Claude Opus 4.7 | $5 | $25 | 1M | 否 |
| GPT-5.5 | $5 | $30 | 400K | 否 |
| GPT-5.5 Pro | $15 | $120 | 400K | 否 |
| Gemini 3.1 Pro | $2 / $4 | $4 / $18 | 1M | 否 |
| DeepSeek V4-Pro | $0.28 | $1.12 | 1M | MIT |
| Qwen3.6-Plus | ~$0.28 | ~$2.4 | 1M | Apache 2.0 |
| Kimi K2.6 | ~$0.95 | ~$3.78 | 256K | 是 |
| GLM-5.1 | $1.26 | $3.96 | 200K | 开源 |
| MiniMax M2.7 | $0.30 | $1.20 | 262K | 开源 |
5.2 服务稳定性
| 厂商 | 稳定性 | 实测速度 TPS | 已知问题 |
|---|---|---|---|
| OpenAI | 最稳 | 80–100 | 算力最充足,企业级 SLA |
| Anthropic | 较好 | 60–80 | "降智门",封号严,国内需中转 |
| 较好 | 70–90 | Deep Think 模式 TTFT 28s | |
| 阿里 Qwen | 很稳 | ~90 | 阿里云加持,国内速度最快 |
| 月之暗面 | 中 | 40 白天 / 100 晚上 | 额度不透明 |
| MiniMax | 中 | ~80 | 5 小时窗口刷新 |
| DeepSeek | 受限 | 40–60 | Pro 吞吐有限,等昇腾 950 |
| 智谱 GLM | 紧 | 30 白天 / 100 晚上 | 高峰 429,"龟速"投诉多 |
5.3 国内月度订阅套餐(2026.04)
| 套餐 | 价格 | 特点 |
|---|---|---|
| MiniMax | ¥29/月 | 全场最低 |
| Kimi Andante | ¥39/月 | K2.6 含 Agent / PPT |
| 智谱 GLM Pro | ¥149/月 | 工程能力强 |
| 火山引擎 Pro | ¥200/月 | 多模型聚合 + ArkClaw |
| 阿里百炼 Pro | ¥200/月 | Lite 已停售 |
| 智谱 GLM Max | ¥469/月 | 涨价 30%+ |
六、场景选型推荐
| 场景 | 首选 | 备选 | 选型理由 |
|---|---|---|---|
| 复杂代码 / Agent 编程 | Claude Opus 4.7 | DeepSeek V4-Pro | SWE-Bench Pro 64.3% 全球最高,MCP-Atlas 77.3% |
| 长文档 / 跨文件分析 | GPT-5.5 | DeepSeek V4-Pro / Gemini 3.1 Pro | GPT-5.5 长上下文翻倍,Opus 4.7 此项暴跌不推荐 |
| 深度推理 / 数学 | Gemini 3.1 Pro | DeepSeek V4-Pro / GPT-5.5 Pro | ARC-AGI-2 + GPQA 双榜第一 |
| 多模态 / 视频理解 | Gemini 3.1 Pro | Qwen3.6-Plus | 唯一支持 YouTube URL 直传分析 |
| 性价比 / 高并发 | DeepSeek V4-Pro | MiniMax M2.7 / Qwen3.6-Plus | $0.28/$1.12 + 75 折 |
| 企业级稳定部署 | GPT-5.5 | Claude Opus 4.7 | OpenAI 算力最充足,SLA 最完整 |
| 中文场景 / 国内合规 | Qwen3.6-Plus | DeepSeek V4-Pro / GLM-5.1 | 阿里云加持速度最快 |
| 私有化部署 | DeepSeek V4-Pro | Qwen3.6-Plus / Kimi K2.6 | MIT 协议、1.6T 完整权重 |
| 前端 UI / 全栈生成 | GLM-5.1 | Qwen3.6-Plus / Claude Opus 4.7 | Code Arena Elo 1530 实测领先 |
| 网络安全 / 漏洞分析 | GPT-5.5 | Claude Mythos(受限) | CyberGym 81.8% + CTF 81% |
七、组合方案建议
7.1 双模型省钱方案
实测验证:核心业务用 DeepSeek V4-Pro 为主,遇到搞不定的 case 自动 fallback 到 Claude Opus 4.7。
月均 API 支出从全用 GPT-5 的 ¥3000+ 降到 ¥800 左右,覆盖 90% 日常需求。
7.2 国内综合方案
- 主力日常:Qwen3.6-Plus(¥2/M)
- 复杂任务:DeepSeek V4-Pro(受算力限制时备 GLM-5.1)
- 长文档:Kimi K2.6(256K 上下文)
- 多模态:Gemini 3.1 Pro
7.3 国际企业方案
- 主力:GPT-5.5(稳定 + 生态)
- 编程:Claude Opus 4.7(按需调用)
- 推理:Gemini 3.1 Pro(成本优势)
7.4 全开源自部署方案
- 文本主力:DeepSeek V4-Pro(MIT,1.6T 参数完整开放)
- 多模态:Qwen3.6-Plus(Apache 2.0)
- 长程 Agent:Kimi K2.6(1T 总参数)
八、未来 2-3 个月趋势预判
- GPT-5.6 临近:Polymarket 预测市场显示 73% 概率在 2026 年 6 月 30 日前发布。
- DeepSeek 算力解锁:昇腾 950 超节点下半年量产后,V4-Pro 价格预计大幅下调,吞吐释放。
- Anthropic Mythos 系列:仅九家科技巨头可用,民用版本可能持续保守迭代。
- 国产竞争白热化:Qwen3.6-Max、Kimi K2.7、DeepSeek 正式版均在路上。
- 多模态融合加速:Gemini 路线(原生多模态)将成为下一轮竞争主战场。
选型建议
眼下做技术选型,建议优先 API 调用而非长期绑定单一供应商,保留 2-3 家备选并搭建模型聚合中间层。
九、数据来源
- Anthropic 官方博客(anthropic.com/news)
- OpenAI 官方公告(openai.com/index)
- Google DeepMind 博客
- DeepSeek API 文档 / Hugging Face 模型页
- Artificial Analysis Intelligence Index
- LMSYS Chatbot Arena / Arena.ai
- BenchLM.ai
- DataLearner AI
- Atlas Cloud 开源模型评测
- 各厂商发布会与第三方独立评测报告
*本报告基于截至 2026 年 5 月 11 日的公开信息整理,仅供参考