发布背景

Anthropic 在 2025 年 9 月发布 Claude Sonnet 4.5,定位是"Sonnet 系列里最强、专为编程与 Agent 任务优化"。 与此同时 Opus 4.1(2025-08 发布)仍然是最强但最贵的模型;Haiku 4.5(2025-10)则是速度最快的轻量版。 本文基于作者 6 个月(2025-09 至 2026-03)真实使用的观察,不是跑分驱动的评测。

一、编程能力

Benchmark 数据

  • SWE-bench Verified(真实 GitHub issue 修复):约 62%(Sonnet 4.0 为 49%)
  • LiveCodeBench(算法题):约 65%(4.0 约 54%)
  • HumanEval+:约 93%(4.0 约 88%)

实际使用感受

真实项目里最明显的提升有三点:

  1. 多文件修改一致性:让 Claude 改一个跨 5 个文件的 refactor,4.0 经常漏一两个引用,4.5 基本能全改到
  2. 框架熟悉度:对 2024 年底之后发布的框架版本(Next 15+、React 19、Bun 1.1)知识更新,4.0 会给过时 API
  3. 拒绝捏造:问 4.5 不知道的库,它会说"我不确定这个库的最新 API,建议你查官方文档",4.0 更倾向于编一个

不足

对极冷门的语言(Elixir、Gleam、Zig)覆盖一般;对 Windows 开发环境(PowerShell 脚本、MSVC 工具链)理解不如 Linux/Mac。

二、长文本

200K 上下文在 4.5 里的实际利用率显著提高。用 Anthropic 官方的 long context 文档里的 needle-in-haystack 测试:

  • 100K 以内:准确率约 98%
  • 100K-150K:约 94%
  • 150K-200K:约 89%

实战中表现为:丢进去 50 个 PDF 做综述,4.5 能真的引用到第 30 个文档的结论;4.0 有时会忘了前半段。 但要注意:超过 150K 后响应时间显著变长(从 5 秒变成 20-30 秒),是 Anthropic 推理时主动调整的。

Extended Thinking(扩展思考)

4.5 开始,Claude 支持扩展思考模式(类似 OpenAI 的 o1):

  • API 里打开 thinking 参数,Claude 会在答题前"思考"最多 64K tokens
  • 适合数学、复杂推理、计划制定
  • 代价是 token 成本直接翻倍,对话型任务不值得开

三、Agent / Tool Use

这是 4.5 相对 4.0 最大的跃迁。Tool use 里的三个硬伤 4.5 基本都解决了:

  • schema 幻觉:4.0 偶尔给出不在 schema 里的字段,4.5 几乎不会
  • 多工具并发:4.5 可以在一轮里同时 call 3-5 个工具,4.0 经常串行
  • 错误恢复:工具返回错误时,4.5 会分析错误信息再调整;4.0 更倾向于原样重试

Claude Code 本身就是 tool use 的重度测试场。4.5 切到 Claude Code 后,"不需要我反复提醒就能自己读 log 找 bug" 的频率大幅上升,开发体验接近一个初级工程师。

四、诚实度与性格

Anthropic 在 4.5 的 system card 里明确提到"减少 sycophancy(过度讨好)"。实际表现:

  • 你说错话,Claude 会礼貌指出"我觉得这里可能不太对,原因是..."
  • 不知道就是不知道,不会编一个听起来像的答案
  • 长回答时会主动说"以上是我比较有信心的部分,关于 X 我不确定"

这对严肃工作(研究、决策辅助)是质的改变。

五、价格与对比

模型API 输入(/M)API 输出(/M)定位
Haiku 4.5$0.80$4快速、轻量
Sonnet 4.5$3$15日常主力
Opus 4.1$15$75复杂推理

对 99% 个人用户:Claude Pro($20/月)下 Sonnet 4.5 是默认模型,够用。 只有做科研、法律分析、复杂数学时才手动切到 Opus 4.1。

适用场景打分

  • 项目级编程:9/10
  • 技术写作:9/10
  • 中文长文:9/10
  • 数学 / 推理:7/10(不如 Opus 4.1 或 GPT-5)
  • 图像理解:8/10
  • 多模态创意:5/10(无语音/视频/图像生成)

相关