覆盖厂商:Anthropic、OpenAI、Google、DeepSeek、阿里、月之暗面、智谱、MiniMax


一、执行摘要

2026 年 Q2 是大模型史上最密集的发布期:3 个月内 8 家旗舰更新,平均不到 2 周一次重大发布。本季度的核心变化:

  1. 编程能力分化:Claude Opus 4.7 在 SWE-Bench Pro 领先(64.3%),但 Terminal-Bench 2.0 落后 GPT-5.5(69.4 vs 82.7);DeepSeek V4-Pro 在竞技编程 LiveCodeBench 反超所有人(93.5)。
  2. 长上下文洗牌:Claude Opus 4.7 暴跌(78.3% → 32.2%)、GPT-5.5 翻倍(36.6% → 74%)、DeepSeek V4-Pro 召回率 45% → 97%——长文档场景排名彻底重排。
  3. 价格战白热化:DeepSeek V4-Pro 比 GPT-5.5 便宜 18-25 倍;MiniMax M2.7 用 10B 激活打到 SWE-Bench Pro 56.22%。
  4. 战略分化:Anthropic 主动削弱长上下文换编程;OpenAI 重训整合 o 系列;Google 把推理翻倍而价格不变;DeepSeek 受高端芯片掣肘但 MIT 开源。

二、2026 Q2 旗舰发布时间轴

日期 模型 厂商 关键亮点
02-19 Gemini 3.1 Pro Google ARC-AGI-2 翻倍至 77.1%,GPQA 94.3% 登顶
03-xx MiniMax M2.7 MiniMax 仅 10B 激活,SWE-Bench Pro 56.22%
04-02 Qwen3.6-Plus 阿里 登顶 OpenRouter,单日 1.4T tokens
04-07 GLM-5.1 智谱 754B MoE,Code Arena Elo 1530
04-14 Kimi K2.6 月之暗面 1T 参数开源最大规模
04-16 Claude Opus 4.7 Anthropic SWE-Bench Pro 64.3%,视觉 98.5%
04-23 GPT-5.5 (Spud) OpenAI 完整重训,Terminal-Bench 82.7%
04-24 DeepSeek V4-Pro 深度求索 1.6T 参数,MIT 开源,价格 1/35

三、关键基准测试对比

3.1 编程与 Agent 能力

测试项 Opus 4.7 GPT-5.5 Gemini 3.1 DS V4-Pro Kimi K2.6 GLM-5.1 Qwen3.6+
SWE-Bench Verified 87.6 80.6 80.6 80.2 77.3
SWE-Bench Pro 64.3 58.6 54.2 58.6 58.4
Terminal-Bench 2.0 69.4 82.7 61.6
LiveCodeBench 93.5
MCP-Atlas (Agent) 77.3 68.1 73.9
BrowseComp (搜索) 79.3 89.3 85.9

3.2 推理与知识

测试项 Opus 4.7 GPT-5.5 Gemini 3.1 DS V4-Pro
ARC-AGI-2 68.8 52.9 77.1
GPQA Diamond 94.3
Humanity's Last Exam 34.5 44.4
IMO-AnswerBench 75.3 89.8
FrontierMath Lv4 35.4
HMMT 2026 Feb 95.2

3.3 长上下文能力(关键变化点)

测试项 Opus 4.7 Opus 4.6 GPT-5.5 GPT-5.4 DS V4-Pro
MRCR v2 @ 1M 32.2 ↓↓ 78.3 74.0 ↑↑ 36.6 97
Graphwalks BFS 1M 45.4 9.4
上下文窗口 1M 1M 400K 256K 1M

⚠️ Opus 4.7 长上下文是这次最大争议——46 个百分点的暴跌。GPT-5.5 在长上下文方面有质的飞跃,DeepSeek V4-Pro 召回率从 45% 拉到 97% 同样惊艳。

3.4 专业领域

测试项 Opus 4.7 GPT-5.5 说明
BigLaw (法律) 90.9 Harvey 法律平台
Finance Agent 64.4 金融分析
BixBench (生物信息) 80.5 所有模型最高
Vals Index 71.4 综合工业基准
CyberGym (网络安全) 73.1 81.8

四、逐家厂商深度分析

4.1 Anthropic · Claude Opus 4.7

属性
发布时间 2026-04-16
上下文窗口 1M (GA 正式版)
API ID claude-opus-4-7
知识截止 2026-01
定价 $5 / $25 per M tokens

核心定位:这是 2026 Q2 最具争议的发布。Anthropic 在官方公告中明确写明:Opus 4.7 不是 Anthropic 最强的模型,最强是仅向 Apple、Google、Microsoft、Nvidia 等九家合作伙伴开放的 Claude Mythos Preview(SWE-bench 达 93.9%)。他们甚至在训练 4.7 时专门尝试对网络安全攻击能力进行"差异化限制"——这种自我设限在 AI 发布史上罕见。

优势

  • SWE-Bench Pro 64.3%(全球第一,+10.9 个点跃升)
  • Vals Index 71.4 综合冠军
  • 视觉精度 98.5%(3 倍提升),分辨率从 1.25 MP 升到 3.75 MP
  • BigLaw 法律 90.9% / Finance Agent 64.4% 专业领域第一
  • xhigh 思考模式 + 输出前自我验证

劣势

  • 长上下文 MRCR 1M 暴跌至 32.2%(4.6 是 78.3%)
  • tokenizer 变更隐性涨价 35%
  • BrowseComp 搜索能力从 83.7% 退步到 79.3%
  • 低 effort 档位性能仅相当于 4.6 的中档
  • 国内需中转,封号严格

4.2 OpenAI · GPT-5.5 "Spud"

属性
发布时间 2026-04-23
上下文窗口 400K
API ID gpt-5.5
知识截止 2025-08
定价 $5 / $30 per M tokens(5.4 价格翻倍)

核心定位:代号 Spud,融合 GPT 系列生成能力与 o1 结构化推理框架,2026 年 3 月 24 日完成预训练,是 OpenAI 进入 AGI 冲刺前最后一次大规模基础模型重构。Sam Altman 表态:"OpenAI 必须在相当程度上成为一家 AI 推理公司"。

优势

  • Terminal-Bench 2.0 82.7%(全球第一,远超 Opus 4.7 的 69.4%)
  • 长上下文 MRCR 翻倍(36.6% → 74%)
  • BixBench 生物信息 80.5% 科研第一
  • Graphwalks BFS 1M 从 9.4% 跃升到 45.4%
  • CyberGym 网络安全 81.8% 领先
  • Agent 自主拆解任务能力强(OpenAI 财务团队用其完成 24,771 份税表审核)
  • Codex 集成完整工程工作流

劣势

  • 价格翻倍至 $5/$30(虽然 token 消耗减 40%,实际成本仍涨约 20%)
  • SWE-Bench Pro 58.6% 落后 Opus 4.7
  • 任务边界依赖强,模糊需求下不会主动补全
  • GPT-5.6 已在测试(5.5 出现 goblin/troll 异常痴迷的对齐问题)
  • 5.5 Pro 仅企业可用

4.3 Google · Gemini 3.1 Pro

属性
发布时间 2026-02-19(仍 Preview)
上下文窗口 1M(部分场景 2M)
API ID gemini-3.1-pro-preview
知识截止 2025-01
定价 输入 $2/$4(<200K / >200K),输出 $4/$18

核心定位:Google DeepMind 把上周发布的 Gemini 3 Deep Think 背后核心智能公开。Artificial Analysis 智能指数 57,以领先 Claude Opus 4.6 四分位居第一。

优势

  • ARC-AGI-2 77.1%(翻倍登顶,Gemini 3 Pro 是 31.1%)
  • GPQA Diamond 94.3% 学术第一
  • Humanity's Last Exam 44.4%
  • 幻觉率相比 Gemini 3 Pro 降低 38%
  • 唯一原生支持文本+图片+音频+视频四模态
  • 支持 YouTube URL 直接分析
  • 成本仅 Opus 4.6 的 1/6
  • APEX-Agents 长链任务 33.5%(接近翻倍)

劣势

  • SWE-Bench Verified 80.6% 编程仅中上
  • GDPval 专家任务落后 Sonnet 4.6(1317 vs 1633)
  • Deep Think 模式 TTFT 28 秒
  • 发布 3 月仍 Preview 状态
  • LMArena 文本/编码榜不及 Opus 4.6

4.4 深度求索 · DeepSeek V4-Pro

属性
发布时间 2026-04-24
参数架构 MoE 1.6T (激活 49B)
上下文窗口 1M
API ID deepseek-v4-pro
知识截止 2025-05
定价 $0.28 / $1.12 per M tokens(75 折至 5/31)
许可 MIT 开源

核心定位:1.6 万亿参数、100 万 token 原生上下文、80.6% SWE-bench、每百万 token 仅 0.3 美元的 API 价格——开源大模型首次在代码能力上与顶级闭源模型并驾齐驱,同时保持 50 倍成本优势。

优势

  • LiveCodeBench 93.5(#1 全球)
  • Codeforces 3206 顶尖水平
  • IMO-AnswerBench 89.8%(超过 Opus 4.6 的 75.3%)
  • HMMT 2026 Feb 95.2%(数学竞赛接近金牌)
  • 长文召回率 45% → 97%
  • 价格仅 GPT-5.5 的 1/35
  • MIT 完全开源,1.6T 完整权重开放
  • SuperCLUE 中文 70.98(国内第一)

劣势

  • 受限于高端算力,Pro 吞吐有限(等下半年昇腾 950 超节点)
  • 纯文本模型,不支持视觉输入或多模态识别
  • HLE 跨域综合推理落后 GLM 5.1 和 Kimi K2.6
  • SWE-Bench Pro 略输 Kimi K2.6
  • 正式版仍待 2026 Q3

4.5 阿里 · Qwen3.6-Plus

属性
发布时间 2026-04-02
上下文窗口 1M
API ID qwen3.6-plus
定价 ¥2 / M 输入(约 $0.28)
许可 Apache 2.0 开源

核心定位:阿里云官方称"目前中国编程能力最强的模型"。发布次日登顶 OpenRouter,单日 Token 消耗突破 1.4 万亿(平台历史纪录),调用量激增 711%。

优势

  • Code Arena 全球第二
  • OpenRouter 单日 1.4T tokens 历史纪录
  • SWE-bench 修复率 77.3%
  • 原生多模态(截图直接生成代码)
  • Apache 2.0 开源矩阵最完整(0.5B 到 397B)
  • 阿里云加持,国内速度最快
  • 适配所有主流 Agent 框架(OpenClaw、Qwen Code、Claude Code、Cline、OpenCode 等)

劣势

  • 基准分接近 Claude 但实测复杂场景差距明显
  • Qwen Code 免费配额已停
  • 旗舰 Qwen3.6-Max 仍未发布
  • HLE 不及 DeepSeek
  • API 文档分海外/国内版

4.6 月之暗面 · Kimi K2.6

属性
发布时间 2026-04-14
参数架构 MoE 1T (激活 32B)
上下文窗口 256K
API ID kimi-k2.6 / kimi-k2.6-thinking
定价 输出 ¥27/M(涨价后)
许可 开源

核心定位:业界总参数量最大的开源模型。月之暗面的"登月计划"新一轮发射,从 K2.5 的"无人绕月"到 K2.6 的"载人绕月"。推理能力夺回国模第一。

优势

  • SWE-Bench Verified 80.2%(接近 Opus 4.6 的 80.8%)
  • SWE-Bench Pro 58.6%(与 GLM-5.1 并列开源最佳)
  • 推理能力国模第一
  • 多模态升级支持图像+视频
  • Agent 长程任务稳定性强
  • 开源中总参数规模最大

劣势

  • 幻觉控制是软肋,K2.6 在长文本任务上下限和上限差距大
  • 同任务消耗 Token 比 K2.5 平均高 1 倍
  • 非推理模式输出经常超限(15K 上限)
  • 输出涨价至 ¥27
  • Kimi Code 额度不透明(¥49 套餐实际仅值 ¥12 的 API)
  • 开源中输入价最高($0.95/M)

4.7 智谱 · GLM-5.1

属性
发布时间 2026-04-07
参数架构 MoE 754B
上下文窗口 200K
API ID glm-5.1
定价 $1.26 / $3.96 per M tokens
许可 开源

核心定位:基于华为芯片训练并开放权重,国内合规性最强。Code Arena Elo 1530 全球第三,独立验证。前端 UI 生成实测最强。

优势

  • Code Arena Elo 1530(全球第三,独立验证)
  • 前端 UI / 全栈生成实测领先(TypeScript 类型化组件首次通过)
  • SWE-Bench Pro 58.4%
  • 华为芯片训练,国产合规最强
  • 可一句话生成完整网页
  • 编码能力达到 Claude Opus 4.6 的 94.6%
  • 组件架构感更强(主动应用组合模式和关注点分离)

劣势

  • 服务器超售严重,白天 <30 TPS(晚上能跑到 100)
  • 高峰期 429 错误频发
  • 输出价 $3.96 是开源中最贵
  • HLE 综合推理仍有差距
  • Coding Plan 已涨价 30%
  • 套餐限频体验差

4.8 MiniMax · M2.7

属性
发布时间 2026-03
参数架构 MoE (激活 10B)
上下文窗口 262K
定价 $0.30 / $1.20 per M tokens
许可 开源

核心定位:最反直觉的"小钢炮"。仅 10B 激活参数却跑出接近 GLM-5.1 的成绩,MoE 架构路由到专门的专家子网络的胜利。

优势

  • SWE-Bench Pro 56.22%(达到 GLM-5.1 的 94%)
  • 激活参数最小(10B),成本最低
  • MLE-Bench Lite 66.6%(机器学习工程第二)
  • PyTorch 训练代码精度高(梯度累积、AMP 混合精度逻辑正确)
  • ¥29/月套餐全场最低
  • Hermes Agent 深度集成(6 万+ GitHub Stars)

劣势

  • 纯文本能力略弱于 DeepSeek/Kimi
  • 品牌知名度低
  • 套餐 5 小时窗口刷新麻烦
  • 复杂任务深度不足
  • API 文档相对简陋

五、价格与算力配套对比

5.1 API 定价(每百万 token,USD)

模型 输入 输出 上下文 开源
Claude Opus 4.7 $5 $25 1M
GPT-5.5 $5 $30 400K
GPT-5.5 Pro $15 $120 400K
Gemini 3.1 Pro $2 / $4 $4 / $18 1M
DeepSeek V4-Pro $0.28 $1.12 1M MIT
Qwen3.6-Plus ~$0.28 ~$2.4 1M Apache 2.0
Kimi K2.6 ~$0.95 ~$3.78 256K
GLM-5.1 $1.26 $3.96 200K 开源
MiniMax M2.7 $0.30 $1.20 262K 开源

5.2 服务稳定性

厂商 稳定性 实测速度 TPS 已知问题
OpenAI 最稳 80–100 算力最充足,企业级 SLA
Anthropic 较好 60–80 "降智门",封号严,国内需中转
Google 较好 70–90 Deep Think 模式 TTFT 28s
阿里 Qwen 很稳 ~90 阿里云加持,国内速度最快
月之暗面 40 白天 / 100 晚上 额度不透明
MiniMax ~80 5 小时窗口刷新
DeepSeek 受限 40–60 Pro 吞吐有限,等昇腾 950
智谱 GLM 30 白天 / 100 晚上 高峰 429,"龟速"投诉多

5.3 国内月度订阅套餐(2026.04)

套餐 价格 特点
MiniMax ¥29/月 全场最低
Kimi Andante ¥39/月 K2.6 含 Agent / PPT
智谱 GLM Pro ¥149/月 工程能力强
火山引擎 Pro ¥200/月 多模型聚合 + ArkClaw
阿里百炼 Pro ¥200/月 Lite 已停售
智谱 GLM Max ¥469/月 涨价 30%+

六、场景选型推荐

场景 首选 备选 选型理由
复杂代码 / Agent 编程 Claude Opus 4.7 DeepSeek V4-Pro SWE-Bench Pro 64.3% 全球最高,MCP-Atlas 77.3%
长文档 / 跨文件分析 GPT-5.5 DeepSeek V4-Pro / Gemini 3.1 Pro GPT-5.5 长上下文翻倍,Opus 4.7 此项暴跌不推荐
深度推理 / 数学 Gemini 3.1 Pro DeepSeek V4-Pro / GPT-5.5 Pro ARC-AGI-2 + GPQA 双榜第一
多模态 / 视频理解 Gemini 3.1 Pro Qwen3.6-Plus 唯一支持 YouTube URL 直传分析
性价比 / 高并发 DeepSeek V4-Pro MiniMax M2.7 / Qwen3.6-Plus $0.28/$1.12 + 75 折
企业级稳定部署 GPT-5.5 Claude Opus 4.7 OpenAI 算力最充足,SLA 最完整
中文场景 / 国内合规 Qwen3.6-Plus DeepSeek V4-Pro / GLM-5.1 阿里云加持速度最快
私有化部署 DeepSeek V4-Pro Qwen3.6-Plus / Kimi K2.6 MIT 协议、1.6T 完整权重
前端 UI / 全栈生成 GLM-5.1 Qwen3.6-Plus / Claude Opus 4.7 Code Arena Elo 1530 实测领先
网络安全 / 漏洞分析 GPT-5.5 Claude Mythos(受限) CyberGym 81.8% + CTF 81%

七、组合方案建议

7.1 双模型省钱方案

实测验证:核心业务用 DeepSeek V4-Pro 为主,遇到搞不定的 case 自动 fallback 到 Claude Opus 4.7。

月均 API 支出从全用 GPT-5 的 ¥3000+ 降到 ¥800 左右,覆盖 90% 日常需求。

7.2 国内综合方案

  • 主力日常:Qwen3.6-Plus(¥2/M)
  • 复杂任务:DeepSeek V4-Pro(受算力限制时备 GLM-5.1)
  • 长文档:Kimi K2.6(256K 上下文)
  • 多模态:Gemini 3.1 Pro

7.3 国际企业方案

  • 主力:GPT-5.5(稳定 + 生态)
  • 编程:Claude Opus 4.7(按需调用)
  • 推理:Gemini 3.1 Pro(成本优势)

7.4 全开源自部署方案

  • 文本主力:DeepSeek V4-Pro(MIT,1.6T 参数完整开放)
  • 多模态:Qwen3.6-Plus(Apache 2.0)
  • 长程 Agent:Kimi K2.6(1T 总参数)

八、未来 2-3 个月趋势预判

  1. GPT-5.6 临近:Polymarket 预测市场显示 73% 概率在 2026 年 6 月 30 日前发布。
  2. DeepSeek 算力解锁:昇腾 950 超节点下半年量产后,V4-Pro 价格预计大幅下调,吞吐释放。
  3. Anthropic Mythos 系列:仅九家科技巨头可用,民用版本可能持续保守迭代。
  4. 国产竞争白热化:Qwen3.6-Max、Kimi K2.7、DeepSeek 正式版均在路上。
  5. 多模态融合加速:Gemini 路线(原生多模态)将成为下一轮竞争主战场。

选型建议

眼下做技术选型,建议优先 API 调用而非长期绑定单一供应商,保留 2-3 家备选并搭建模型聚合中间层。


九、数据来源

  • Anthropic 官方博客(anthropic.com/news)
  • OpenAI 官方公告(openai.com/index)
  • Google DeepMind 博客
  • DeepSeek API 文档 / Hugging Face 模型页
  • Artificial Analysis Intelligence Index
  • LMSYS Chatbot Arena / Arena.ai
  • BenchLM.ai
  • DataLearner AI
  • Atlas Cloud 开源模型评测
  • 各厂商发布会与第三方独立评测报告

*本报告基于截至 2026 年 5 月 11 日的公开信息整理,仅供参考