发布背景:41 天的最快迭代
Anthropic 于 2026 年 5 月 28 日发布 Claude Opus 4.8,距离 Opus 4.7 发布仅 41 天, 是 Claude 系列迄今最快的版本更新节奏。定位非常明确:4.7 的同价直接升级版, API 价格保持每百万 token 输入 $5、输出 $25 不变,对所有 Claude 付费档位开放。
Anthropic 官方对它的措辞相当克制——称其为“幅度不大但确实可感知的提升”。 这与很多自媒体“史诗级飞跃”的标题不同。本文只看公开基准的硬数字,逐项对比 4.8 相对 4.7 到底升在哪。
核心基准对比:Opus 4.8 vs 4.7
| 基准 | Opus 4.7 | Opus 4.8 | 变化 |
|---|---|---|---|
| SWE-bench Verified(编程) | 87.6% | 88.6% | +1.0(接近饱和) |
| SWE-bench Pro(更难的编程) | 64.3% | 69.2% | +4.9(真信号) |
| Terminal-Bench(终端 Agent) | 66.1%(v2.0) | 74.6%(v2.1) | 版本变更,不直接可比 |
| USAMO 2026(数学奥赛) | 69.3% | 96.7% | +27.4 |
| GraphWalks @1M(长上下文检索 F1) | 40.3% | 68.1% | +27.8 |
| OSWorld-Verified(电脑操作) | 82.3%* | 83.4% | 该类目居首 |
| GDPval-AA(综合能力 Elo) | 1753 | 1890 | +137 |
| GPQA Diamond(研究生级科学) | 94.2% | 93.6% | -0.6(顶部波动) |
*OSWorld-Verified:Anthropic 调整了评测运行方式以更准确反映模型表现,并把 4.7 的成绩重述为 82.3%。 Terminal-Bench 从 2.0 升到 2.1,74.6% 与 4.7 的 66.1% 不是同一把尺子,仅作趋势参考。
编程:真正的看点在 SWE-bench Pro
很多人盯着 SWE-bench Verified,但它已经逼近天花板(88.6% 几乎到顶,模型之间差几个零点几没意义)。真正能区分强弱的是更难、更不饱和的 SWE-bench Pro——任务更长、依赖更复杂、一次改对的难度更大。
Opus 4.8 在 SWE-bench Pro 上拿到 69.2%,比 4.7(64.3%)高出近 5 分。 放到全行业看,这个分数领先 GPT-5.5(58.6%)超过 10 分,领先 Gemini 3.1 Pro(54.2%)约 15 分。 对“真实多文件工程改造”这种 Claude Code 最高频的场景,4.8 的“一次到位率”是肉眼可感的提升。
| 模型 | SWE-bench Pro | 定位 |
|---|---|---|
| Claude Opus 4.8 | 69.2% | 当前编程最强通用模型之一 |
| Claude Opus 4.7 | 64.3% | 上一代旗舰 |
| GPT-5.5 | 58.6% | 多模态强,编程稍逊 |
| Gemini 3.1 Pro | 54.2% | 超长上下文与生态见长 |
数学与长上下文:两个“跳变”
数学是这次最夸张的单项:USAMO 2026(美国数学奥林匹克)从 4.7 的 69.3% 直接飙到 96.7%, 一代之内涨了 27 分。对需要严密多步推理、证明类任务的用户,这是实打实的能力跃迁。
长上下文检索同样关键:GraphWalks 在 100 万 token 上下文下的 F1 从 40.3% 提升到 68.1%。 这意味着把整个中型代码库或一摞长文档塞进 1M 窗口后,4.8“在海量上下文里精准定位目标信息”的能力大幅增强—— 长上下文不再只是“能装下”,而是“装下后还找得准”。具体怎么在 Claude Code 里用好 1M 上下文,见这篇实战指南。
被低估的升级:诚实度
Anthropic 这次最强调的定性提升其实是“诚实度 / 不糊弄”,对工程用户价值极高:
- 约 4 倍更少“放过自己代码里的缺陷而不指出”——它更愿意主动说“我这段可能有问题”
- 据系统卡,仅 3.7% 的情况下会漏报应当提醒用户的重要事件
- 首个在“照单全收地报告有缺陷的结果”项上拿到 0% 的 Claude 模型
- 相比 4.7,过度自信减少 10 倍以上——不懂会说不懂,而不是编一个像样的答案
对让 AI 跑长任务、自动改代码的人来说,“会主动认错/示警”比基准涨几个点更省心—— 它直接降低了你为幻觉买单的概率。
需要注意的回退
不是所有指标都涨,两个点值得 Agent 开发者警惕:
- GPQA Diamond 微降(94.2% → 93.6%):接近满分的基准,顶部 0.6 分波动属正常,影响不大。
- 提示词注入鲁棒性略回退:系统卡显示,agentic 场景下 Gray Swan 红队的攻击成功率约 9.6%, 4.7 为 6.0%。做高自动化 Agent(让模型自行读取外部网页/邮件/文件并执行动作)时, 要更重视“把不可信内容当数据、不当指令”的输入隔离。
同日上线的三件套
Opus 4.8 不是只换了权重,同一天还上线了三项平台能力:
- 单个 Claude Code 会话内编排数百个并行子智能体,面向代码库级别的大迁移
- claude.ai 各档位铺开 Effort 档位(low / high / extra / maximum 等)控制思考深度
- 支持对话中途注入系统指令而不破坏 prompt 缓存
这三项对“怎么用”的影响,比基准数字更大,详见《数百并行子智能体 + 动态工作流》。
结论:要不要升级?
- 难编程 / 长上下文 / 高准确性要求(多文件重构、百万级代码库、证明类数学、长合同分析)→ 值得升,同价更优。
- 日常问答、轻量任务→ 提升不明显,不必为“升级”而升级,4.7/Sonnet 仍够用。
- 高自动化 Agent 场景→ 享受编程提升的同时,注意提示词注入鲁棒性的回退,加强输入隔离。
国内用户无需海外信用卡,可通过 ClaudeMax 微信支付订阅 Claude Pro(¥210/月)或 Max(¥980/月起), 5 分钟交付 Anthropic 官方席位,网页端与 Claude Code 均可使用 Opus 4.8。
数据来源:Anthropic 官方发布说明与系统卡,以及 llm-stats、Vellum、TrueFoundry 等第三方实测整理(2026-05)。 基准会随评测方法与版本变化,文中数字以官方系统卡为准。