发布背景:41 天的最快迭代

Anthropic 于 2026 年 5 月 28 日发布 Claude Opus 4.8,距离 Opus 4.7 发布仅 41 天, 是 Claude 系列迄今最快的版本更新节奏。定位非常明确:4.7 的同价直接升级版, API 价格保持每百万 token 输入 $5、输出 $25 不变,对所有 Claude 付费档位开放。

Anthropic 官方对它的措辞相当克制——称其为“幅度不大但确实可感知的提升”。 这与很多自媒体“史诗级飞跃”的标题不同。本文只看公开基准的硬数字,逐项对比 4.8 相对 4.7 到底升在哪。

核心基准对比:Opus 4.8 vs 4.7

基准Opus 4.7Opus 4.8变化
SWE-bench Verified(编程)87.6%88.6%+1.0(接近饱和)
SWE-bench Pro(更难的编程)64.3%69.2%+4.9(真信号)
Terminal-Bench(终端 Agent)66.1%(v2.0)74.6%(v2.1)版本变更,不直接可比
USAMO 2026(数学奥赛)69.3%96.7%+27.4
GraphWalks @1M(长上下文检索 F1)40.3%68.1%+27.8
OSWorld-Verified(电脑操作)82.3%*83.4%该类目居首
GDPval-AA(综合能力 Elo)17531890+137
GPQA Diamond(研究生级科学)94.2%93.6%-0.6(顶部波动)

*OSWorld-Verified:Anthropic 调整了评测运行方式以更准确反映模型表现,并把 4.7 的成绩重述为 82.3%。 Terminal-Bench 从 2.0 升到 2.1,74.6% 与 4.7 的 66.1% 不是同一把尺子,仅作趋势参考。

编程:真正的看点在 SWE-bench Pro

很多人盯着 SWE-bench Verified,但它已经逼近天花板(88.6% 几乎到顶,模型之间差几个零点几没意义)。真正能区分强弱的是更难、更不饱和的 SWE-bench Pro——任务更长、依赖更复杂、一次改对的难度更大。

Opus 4.8 在 SWE-bench Pro 上拿到 69.2%,比 4.7(64.3%)高出近 5 分。 放到全行业看,这个分数领先 GPT-5.5(58.6%)超过 10 分,领先 Gemini 3.1 Pro(54.2%)约 15 分。 对“真实多文件工程改造”这种 Claude Code 最高频的场景,4.8 的“一次到位率”是肉眼可感的提升。

模型SWE-bench Pro定位
Claude Opus 4.869.2%当前编程最强通用模型之一
Claude Opus 4.764.3%上一代旗舰
GPT-5.558.6%多模态强,编程稍逊
Gemini 3.1 Pro54.2%超长上下文与生态见长

数学与长上下文:两个“跳变”

数学是这次最夸张的单项:USAMO 2026(美国数学奥林匹克)从 4.7 的 69.3% 直接飙到 96.7%, 一代之内涨了 27 分。对需要严密多步推理、证明类任务的用户,这是实打实的能力跃迁。

长上下文检索同样关键:GraphWalks 在 100 万 token 上下文下的 F1 从 40.3% 提升到 68.1%。 这意味着把整个中型代码库或一摞长文档塞进 1M 窗口后,4.8“在海量上下文里精准定位目标信息”的能力大幅增强—— 长上下文不再只是“能装下”,而是“装下后还找得准”。具体怎么在 Claude Code 里用好 1M 上下文,见这篇实战指南

被低估的升级:诚实度

Anthropic 这次最强调的定性提升其实是“诚实度 / 不糊弄”,对工程用户价值极高:

  • 约 4 倍更少“放过自己代码里的缺陷而不指出”——它更愿意主动说“我这段可能有问题”
  • 据系统卡,仅 3.7% 的情况下会漏报应当提醒用户的重要事件
  • 首个在“照单全收地报告有缺陷的结果”项上拿到 0% 的 Claude 模型
  • 相比 4.7,过度自信减少 10 倍以上——不懂会说不懂,而不是编一个像样的答案

对让 AI 跑长任务、自动改代码的人来说,“会主动认错/示警”比基准涨几个点更省心—— 它直接降低了你为幻觉买单的概率。

需要注意的回退

不是所有指标都涨,两个点值得 Agent 开发者警惕:

  • GPQA Diamond 微降(94.2% → 93.6%):接近满分的基准,顶部 0.6 分波动属正常,影响不大。
  • 提示词注入鲁棒性略回退:系统卡显示,agentic 场景下 Gray Swan 红队的攻击成功率约 9.6%, 4.7 为 6.0%。做高自动化 Agent(让模型自行读取外部网页/邮件/文件并执行动作)时, 要更重视“把不可信内容当数据、不当指令”的输入隔离。

同日上线的三件套

Opus 4.8 不是只换了权重,同一天还上线了三项平台能力:

  • 单个 Claude Code 会话内编排数百个并行子智能体,面向代码库级别的大迁移
  • claude.ai 各档位铺开 Effort 档位(low / high / extra / maximum 等)控制思考深度
  • 支持对话中途注入系统指令而不破坏 prompt 缓存

这三项对“怎么用”的影响,比基准数字更大,详见《数百并行子智能体 + 动态工作流》

结论:要不要升级?

  • 难编程 / 长上下文 / 高准确性要求(多文件重构、百万级代码库、证明类数学、长合同分析)→ 值得升,同价更优。
  • 日常问答、轻量任务→ 提升不明显,不必为“升级”而升级,4.7/Sonnet 仍够用。
  • 高自动化 Agent 场景→ 享受编程提升的同时,注意提示词注入鲁棒性的回退,加强输入隔离。

国内用户无需海外信用卡,可通过 ClaudeMax 微信支付订阅 Claude Pro(¥210/月)或 Max(¥980/月起), 5 分钟交付 Anthropic 官方席位,网页端与 Claude Code 均可使用 Opus 4.8。

数据来源:Anthropic 官方发布说明与系统卡,以及 llm-stats、Vellum、TrueFoundry 等第三方实测整理(2026-05)。 基准会随评测方法与版本变化,文中数字以官方系统卡为准。