先厘清:一个模型,两个容易混的概念

很多人看到“Opus 4.8”和“Opus 4.8 1M context”会以为是两个模型,其实是同一个模型的两件事

  • 模型本身:Claude Opus 4.8,权重、能力固定不变。
  • 上下文窗口:一次能塞进多少 token。Opus 4.8 支持最高 1,000,000(1M)token,但实际是 1M 还是 200K,取决于你的访问方式和档位。
  • Effort(努力 / 思考档位):同一个模型在回答前“想多深”。这是另一个维度,和上下文窗口无关。

换句话说:上下文窗口决定“能看多少”,Effort 决定“想多深”,模型决定“底子有多强”。三者独立,下面分开讲。

1M 上下文:什么时候自动开,什么时候是 200K

Opus 4.6 及以后(含 4.8)和 Sonnet 4.6 都支持 1M 上下文,但“能不能用上 1M”要看场景:

访问方式Opus 4.8 默认上下文说明
Claude API / Bedrock / Vertex1M(默认)最大输出 128K token;Microsoft Foundry 为 200K
Claude Code · Max / Team / Enterprise1M(自动升级)opus 模型自动升到 1M,无需任何配置
Claude Code · opusplan 别名计划阶段 200K例外:plan 模式的 Opus 阶段不享受 1M 自动升级
其他较低档位200K标准窗口

注意那个 opusplan 例外:如果你用 opusplan 混合别名(计划用 Opus、执行用 Sonnet), 计划阶段的 Opus 跑的是标准 200K 窗口,1M 自动升级只对 opus 模型设置生效。 要在超大代码库里做计划,直接用 opus 而非 opusplan

1M 上下文的实际使用场景

该开 1M 的场景(4.8 这次把长上下文检索 F1 从 40% 提到 68%,“装下还找得准”):

  • 整个中型代码库一次性塞进上下文,跨几十个文件追依赖、做架构级理解
  • 超长文档分析:上百页技术规范、合同、论文集合
  • 超长会话不想被自动压缩:长 Agent 任务里保留完整历史,减少“失忆”

200K 就够、甚至更好的场景

  • 单文件或少量文件的改动——塞进 1M 只是徒增 token 消耗
  • 配额敏感:1M 会话的 token 消耗远高于 200K,订阅档位的用量会掉得更快
  • 追求响应速度:超长上下文的处理通常更慢

一句话:1M 是“能力上限”,不是“越大越好”的默认习惯。按任务的真实上下文需要来,省下的配额可以多跑几轮。 想了解不同订阅档位的用量差异,可参考 Max 值不值买的用量测算

Effort 五档:同一模型,不同“思考深度”

在支持自适应推理的模型上,Effort 是控制“模型在每一步想多少”的主开关。Opus 4.8 有五档:

档位适合的编程 / 任务代价
low快速小改、拼写/格式、简短解释、低风险任务最快最省,复杂任务会“想得浅”
medium中等难度、多步但不烧脑的任务平衡档
high(4.8 默认)复杂推理、难编程、质量优先于速度/成本多数智力型工作的推荐起点
xhigh高级编程 + 复杂 agentic:反复调工具、深度搜索、长探索Anthropic 建议编程从这里起步
max攻坚硬骨头:要绝对最高能力、不限思考 token最慢最贵,仅当前会话生效

持久性差异low/medium/high/xhigh 会跨会话记住;max 只在当前会话生效 (除非用 CLAUDE_CODE_EFFORT_LEVEL 环境变量固定)。切换模型时会重置成该模型默认档, 所以从别的模型切到 Opus 4.8 后,想用非 high 的档位要再跑一次 /effort

同一模型,不同 Effort 在实际编程里差多少?

核心权衡只有一句:Effort 越高,模型思考越久、花的 token 越多,一次成功率越高、来回越少;但延迟和配额消耗也越高。

  • 难任务(跨多文件重构、复杂 Agent 流程):用 low 往往“想得太浅”,反复改不对,来回几轮反而更费; 用 xhigh 一次想透、改对率高,总成本通常更低
  • 简单任务(改个函数、写段样板代码):用 max 是浪费——多花一堆思考 token 换不来更好的结果,low/medium 又快又省。
  • 方法论:Anthropic 建议编程与 agentic 从 xhigh 起步,其余智力型任务用 high, 只有在你用自己的真实任务“测过质量不掉”之后,才降到 medium/low 去省成本。别凭感觉一上来就降档。

关键变化:不再支持“思考预算”

如果你之前用 API 给 Claude 设置过思考预算,Opus 4.8 这条要改

  • 设置 thinking: {type: "enabled", budget_tokens: N} 会直接返回 400 错误
  • 改用自适应思考 + Effort:API 上是 thinking: {type: "adaptive"} 搭配 output_config: {effort: "high"}
  • 在 Claude Code 里,你不用碰这些底层参数,直接 /effort 选档即可。

ultracode:比 max 更进一步

Claude Code 的 /effort 菜单里还有一个特殊项 ultracode。它不是模型 Effort 档位,而是 Claude Code 的一个设置: 它给模型发送 xhigh,并额外让 Claude 为有分量的任务编排动态工作流(自动拆解、并行推进、再综合)。 适合“代码库级”的大活——它和 Opus 4.8 同日上线的“单会话数百并行子智能体”是一套组合拳,详见这篇

上手清单(Claude Code)

  1. 升级:Opus 4.8 需要 Claude Code v2.1.154+,先 claude update
  2. 切模型/model 选 Opus 4.8(或 opus 别名)。
  3. 确认 1M:Max/Team/Enterprise 下 opus 自动 1M;要超大库计划别用 opusplan。
  4. 选 Effort/effort → 编程起步 xhigh,攻坚临时 max,小改 low
  5. 按需调:用真实任务测,质量不掉再降档省配额。

国内用户无需海外信用卡,通过 ClaudeMax 微信支付订阅 Claude Max(¥980/月起) 即可用上 Opus 4.8 的 1M 上下文与全部 Effort 档位;只想轻量用可以先订 Pro(¥210/月)。付款后约 5 分钟交付 Anthropic 官方席位。

参考:Claude Code 模型配置文档、Claude API“Effort/What's new in Opus 4.8”文档(2026-05)。 具体档位与版本要求以官方文档为准。