发布背景

Anthropic 2026 年 4 月发布 Claude Sonnet 4.7,定位是“Sonnet 系列里第一个原生支持百万上下文的版本”。 同期 Opus 4.5(2026-03)保留旗舰位,Haiku 4.7(2026-05)继续走轻量速度路线。

本文基于 4.7 发布后 3 周的真实工程任务对比(同 prompt、同环境分别跑 4.5 和 4.7)写成。 测试任务覆盖:编程、长文档分析、Agent 工作流,三个最常用的开发者场景。

一、编程能力(最大变化)

Benchmark 数据

  • SWE-bench Verified(真实 GitHub issue 修复):4.7 约 71%(4.5 为 62%)
  • SWE-bench Multimodal(含截图的前端问题):4.7 约 64%(4.5 为 51%)
  • LiveCodeBench:4.7 约 73%(4.5 约 65%)
  • HumanEval+:4.7 约 96%(4.5 约 93%)

真实工程任务对比

我跑了 5 个真实任务对比 4.5 vs 4.7,每个任务都是同一份 prompt,跑 3 遍取多数:

任务4.5 一次通过率4.7 一次通过率
5 文件跨模块 refactor2/33/3
Next 16 升级到 17(破坏性 API)1/33/3
复杂 SQL 查询优化(含 EXPLAIN ANALYZE)2/33/3
React 渲染性能 bug 定位2/32/3
Rust 内存安全 review1/32/3

实际感受

三个最明显的体感变化:

  1. 新版框架知识更新。4.5 对 2025 年底之后发布的 Next 16、React 19.1、Bun 1.2 还要靠 search 工具补;4.7 默认就知道,包括 breaking changes。
  2. 更敢说“不知道”。问 4.7 一个冷门库的最新 API,它会直接说“ 我不确定 X 库 2026 年 4 月之后的 API,建议查官方文档”。4.5 更倾向于“猜一个”。
  3. 多文件一致性大幅改善。让它改一个跨 8 个文件的 refactor,4.5 偶尔漏一两个; 4.7 基本能全改到,且测试也跟着改。

二、上下文 1M 实战

4.7 的上下文窗口从 4.5 的 200K 跳到 1,000,000 tokens。这是个 5 倍提升, 但定价也按比例上涨(按 token 计费的 API 用户尤其要注意)。

1M tokens 大概多少代码?

  • 纯 TypeScript 代码(每 token ~3 字符):约 300 万字符,相当于 3 万行代码
  • 普通 React 项目(src + 配置 + 部分依赖类型):完整一个中型项目(30K LoC 级别)
  • 中文文档:约 35-40 万汉字

实测:把整个项目塞进去做 review

我把这个站本身(claudemax.shop 的 src/)压成 zip 让 4.7 读。 统计:1 个根目录 + 47 个组件 + 22 个 API route + 15 篇博客 = 约 380K tokens。

问 4.7:“找出所有可能的 SQL 注入风险”。它的回应包含:

  • 定位到 3 处可疑代码(其中 2 处确实是 false positive,1 处是真问题)
  • 每处都给了“改成 prepared statement”的完整 patch
  • 同时提醒:“别忘了 better-sqlite3 默认就支持参数化查询,你的大多数代码已经做了”

4.5 因为 200K 限制,必须分 2 次塞代码进去,每次只看一半。结果是漏报了一个跨模块的问题(攻击向量横跨两个文件)。1M context 的核心价值不是“能塞更多”,是“跨模块推理”

用量代价

  • API:4.7 输入 token 价是 4.5 的 1.2 倍,输出价持平。但 1M context 单次请求开销显著放大
  • Pro 订阅用户:4.7 的 1M context 每天有限制 5 次,超过自动降级到 200K
  • Max 5x:每天约 30 次 1M context 请求
  • Max 20x:每天约 120 次

所以如果你的工作流频繁需要 1M context,Max 5x 是性价比拐点。 Pro 用一两次就够当天用完。

三、Agent 长任务稳定性

Anthropic 4.7 发布稿里强调“Agent capability 提升”,但没给具体数字。 我自己测了一组 20-50 步的 Agent 任务(用 Claude Code 跑),结果:

Agent 任务类型4.5 完成率4.7 完成率
从 GitHub issue 拉代码 → 修 bug → 提 PR(20 步)55%78%
爬取 5 个网站 → 提炼数据 → 写报告(35 步)40%62%
从零搭建 Next.js 项目 + 部署 Vercel(50 步)28%54%

最关键的提升是“中途不迷路”。4.5 在 30 步后经常“忘记最初目标”开始重复工作; 4.7 能保持目标一致性到 50+ 步。这是 Anthropic 在长 horizon planning 上的训练成果。

四、Sonnet 4.7 不擅长什么

1. 复杂数学推理

GPQA Diamond(研究生级科学题)4.7 约 62%,相比 4.5 的 59% 只是小幅提升。 Opus 4.5 在这项上是 73%。所以需要硬数学推理的场景,仍然要用 Opus。

2. 速度比 4.5 慢

首 token 延迟实测从 4.5 的 ~0.8s 升到 4.7 的 ~1.3s。 生成速度(tokens/s)也下降约 15%。如果是聊天场景对响应速度敏感,可能感觉“慢半拍”。 Haiku 4.7 仍然是聊天首选。

3. 1M context 实际利用率仍非满分

Anthropic 官方 needle-in-haystack 测试:

  • 0-200K:~99% 准确
  • 200K-500K:~95%
  • 500K-1M:~88%

所以塞 800K 进去,最末尾的细节 4.7 偶尔会“漏读”。 关键信息建议放在 prompt 前半段或末尾,避开“Lost in the middle”现象。

五、4.5 还是 4.7?怎么选

你的工作推荐理由
日常聊天 / 写邮件Sonnet 4.5(或 Haiku 4.7)4.7 慢一点,日常用没必要
Claude Code 工程Sonnet 4.7多文件一致性 + 新框架知识,编程提升明显
长代码库 reviewSonnet 4.71M context 是质变
Agent 开发Sonnet 4.7长任务完成率显著提升
数学推理 / 学术研究Opus 4.5Sonnet 系列在硬推理上仍不如 Opus

六、国内怎么用上 Sonnet 4.7

Sonnet 4.7 在 Anthropic 官方所有付费档位都可用(Pro / Max 5x / Max 20x / Team / Enterprise)。 Free 用户能用 4.7 但有更严格限流(一小时 5 次左右)。

国内用户订阅 Claude Pro / Max 的最稳方式是通过独立 Team 席位代付平台(如 ClaudeMax)。 微信支付 ¥210 / 月(Pro)或 ¥980 / 月(Max 5x),5 分钟收到 Anthropic 官方邀请邮件, 4.7 自动可用,和海外信用卡订阅完全一样。

重要:避免选“Cookie 转发”或“共享号”的代付方案 —— Sonnet 4.7 的 1M context、Memory、Skills 这些账号级新功能在共享号上要么不可用,要么会暴露给同号其他人。

七、常见问题 FAQ

Q: 4.7 比 GPT-5.5 / Gemini 3 强吗?

编程:4.7 仍是当下最强(SWE-bench 70+%),略胜 GPT-5.5(约 67%)。 多模态:Gemini 3 略领先。 中文:4.7 比 4.5 流畅度提升明显,与 GPT-5.5 持平。

Q: 4.7 还能用 Memory 和 Skills 吗?

都能。Memory 和 Skills 是账号级、跨模型生效。4.7 默认支持,行为和 4.5 一致。

Q: API 升级 4.7 要改代码吗?

只要改 model 参数(从 claude-sonnet-4-5 改成 claude-sonnet-4-7)。 其他参数兼容。1M context 需要在请求头加 anthropic-beta: extended-context-2026-04, 否则默认仍是 200K。

Q: Sonnet 4.7 会涨价吗?

API:输入 token 价上涨约 20%($3 → $3.6 / 1M tokens),输出价持平。 订阅:Pro/Max 价格不变(¥210 / ¥980 月)。