发布背景
Anthropic 2026 年 4 月发布 Claude Sonnet 4.7,定位是“Sonnet 系列里第一个原生支持百万上下文的版本”。 同期 Opus 4.5(2026-03)保留旗舰位,Haiku 4.7(2026-05)继续走轻量速度路线。
本文基于 4.7 发布后 3 周的真实工程任务对比(同 prompt、同环境分别跑 4.5 和 4.7)写成。 测试任务覆盖:编程、长文档分析、Agent 工作流,三个最常用的开发者场景。
一、编程能力(最大变化)
Benchmark 数据
- SWE-bench Verified(真实 GitHub issue 修复):4.7 约 71%(4.5 为 62%)
- SWE-bench Multimodal(含截图的前端问题):4.7 约 64%(4.5 为 51%)
- LiveCodeBench:4.7 约 73%(4.5 约 65%)
- HumanEval+:4.7 约 96%(4.5 约 93%)
真实工程任务对比
我跑了 5 个真实任务对比 4.5 vs 4.7,每个任务都是同一份 prompt,跑 3 遍取多数:
| 任务 | 4.5 一次通过率 | 4.7 一次通过率 |
|---|---|---|
| 5 文件跨模块 refactor | 2/3 | 3/3 |
| Next 16 升级到 17(破坏性 API) | 1/3 | 3/3 |
| 复杂 SQL 查询优化(含 EXPLAIN ANALYZE) | 2/3 | 3/3 |
| React 渲染性能 bug 定位 | 2/3 | 2/3 |
| Rust 内存安全 review | 1/3 | 2/3 |
实际感受
三个最明显的体感变化:
- 新版框架知识更新。4.5 对 2025 年底之后发布的 Next 16、React 19.1、Bun 1.2 还要靠 search 工具补;4.7 默认就知道,包括 breaking changes。
- 更敢说“不知道”。问 4.7 一个冷门库的最新 API,它会直接说“ 我不确定 X 库 2026 年 4 月之后的 API,建议查官方文档”。4.5 更倾向于“猜一个”。
- 多文件一致性大幅改善。让它改一个跨 8 个文件的 refactor,4.5 偶尔漏一两个; 4.7 基本能全改到,且测试也跟着改。
二、上下文 1M 实战
4.7 的上下文窗口从 4.5 的 200K 跳到 1,000,000 tokens。这是个 5 倍提升, 但定价也按比例上涨(按 token 计费的 API 用户尤其要注意)。
1M tokens 大概多少代码?
- 纯 TypeScript 代码(每 token ~3 字符):约 300 万字符,相当于 3 万行代码
- 普通 React 项目(src + 配置 + 部分依赖类型):完整一个中型项目(30K LoC 级别)
- 中文文档:约 35-40 万汉字
实测:把整个项目塞进去做 review
我把这个站本身(claudemax.shop 的 src/)压成 zip 让 4.7 读。 统计:1 个根目录 + 47 个组件 + 22 个 API route + 15 篇博客 = 约 380K tokens。
问 4.7:“找出所有可能的 SQL 注入风险”。它的回应包含:
- 定位到 3 处可疑代码(其中 2 处确实是 false positive,1 处是真问题)
- 每处都给了“改成 prepared statement”的完整 patch
- 同时提醒:“别忘了 better-sqlite3 默认就支持参数化查询,你的大多数代码已经做了”
4.5 因为 200K 限制,必须分 2 次塞代码进去,每次只看一半。结果是漏报了一个跨模块的问题(攻击向量横跨两个文件)。1M context 的核心价值不是“能塞更多”,是“跨模块推理”。
用量代价
- API:4.7 输入 token 价是 4.5 的 1.2 倍,输出价持平。但 1M context 单次请求开销显著放大
- Pro 订阅用户:4.7 的 1M context 每天有限制 5 次,超过自动降级到 200K
- Max 5x:每天约 30 次 1M context 请求
- Max 20x:每天约 120 次
所以如果你的工作流频繁需要 1M context,Max 5x 是性价比拐点。 Pro 用一两次就够当天用完。
三、Agent 长任务稳定性
Anthropic 4.7 发布稿里强调“Agent capability 提升”,但没给具体数字。 我自己测了一组 20-50 步的 Agent 任务(用 Claude Code 跑),结果:
| Agent 任务类型 | 4.5 完成率 | 4.7 完成率 |
|---|---|---|
| 从 GitHub issue 拉代码 → 修 bug → 提 PR(20 步) | 55% | 78% |
| 爬取 5 个网站 → 提炼数据 → 写报告(35 步) | 40% | 62% |
| 从零搭建 Next.js 项目 + 部署 Vercel(50 步) | 28% | 54% |
最关键的提升是“中途不迷路”。4.5 在 30 步后经常“忘记最初目标”开始重复工作; 4.7 能保持目标一致性到 50+ 步。这是 Anthropic 在长 horizon planning 上的训练成果。
四、Sonnet 4.7 不擅长什么
1. 复杂数学推理
GPQA Diamond(研究生级科学题)4.7 约 62%,相比 4.5 的 59% 只是小幅提升。 Opus 4.5 在这项上是 73%。所以需要硬数学推理的场景,仍然要用 Opus。
2. 速度比 4.5 慢
首 token 延迟实测从 4.5 的 ~0.8s 升到 4.7 的 ~1.3s。 生成速度(tokens/s)也下降约 15%。如果是聊天场景对响应速度敏感,可能感觉“慢半拍”。 Haiku 4.7 仍然是聊天首选。
3. 1M context 实际利用率仍非满分
Anthropic 官方 needle-in-haystack 测试:
- 0-200K:~99% 准确
- 200K-500K:~95%
- 500K-1M:~88%
所以塞 800K 进去,最末尾的细节 4.7 偶尔会“漏读”。 关键信息建议放在 prompt 前半段或末尾,避开“Lost in the middle”现象。
五、4.5 还是 4.7?怎么选
| 你的工作 | 推荐 | 理由 |
|---|---|---|
| 日常聊天 / 写邮件 | Sonnet 4.5(或 Haiku 4.7) | 4.7 慢一点,日常用没必要 |
| Claude Code 工程 | Sonnet 4.7 | 多文件一致性 + 新框架知识,编程提升明显 |
| 长代码库 review | Sonnet 4.7 | 1M context 是质变 |
| Agent 开发 | Sonnet 4.7 | 长任务完成率显著提升 |
| 数学推理 / 学术研究 | Opus 4.5 | Sonnet 系列在硬推理上仍不如 Opus |
六、国内怎么用上 Sonnet 4.7
Sonnet 4.7 在 Anthropic 官方所有付费档位都可用(Pro / Max 5x / Max 20x / Team / Enterprise)。 Free 用户能用 4.7 但有更严格限流(一小时 5 次左右)。
国内用户订阅 Claude Pro / Max 的最稳方式是通过独立 Team 席位代付平台(如 ClaudeMax)。 微信支付 ¥210 / 月(Pro)或 ¥980 / 月(Max 5x),5 分钟收到 Anthropic 官方邀请邮件, 4.7 自动可用,和海外信用卡订阅完全一样。
重要:避免选“Cookie 转发”或“共享号”的代付方案 —— Sonnet 4.7 的 1M context、Memory、Skills 这些账号级新功能在共享号上要么不可用,要么会暴露给同号其他人。
七、常见问题 FAQ
Q: 4.7 比 GPT-5.5 / Gemini 3 强吗?
编程:4.7 仍是当下最强(SWE-bench 70+%),略胜 GPT-5.5(约 67%)。 多模态:Gemini 3 略领先。 中文:4.7 比 4.5 流畅度提升明显,与 GPT-5.5 持平。
Q: 4.7 还能用 Memory 和 Skills 吗?
都能。Memory 和 Skills 是账号级、跨模型生效。4.7 默认支持,行为和 4.5 一致。
Q: API 升级 4.7 要改代码吗?
只要改 model 参数(从 claude-sonnet-4-5 改成 claude-sonnet-4-7)。 其他参数兼容。1M context 需要在请求头加 anthropic-beta: extended-context-2026-04, 否则默认仍是 200K。
Q: Sonnet 4.7 会涨价吗?
API:输入 token 价上涨约 20%($3 → $3.6 / 1M tokens),输出价持平。 订阅:Pro/Max 价格不变(¥210 / ¥980 月)。
