先厘清:一个模型,两个容易混的概念
很多人看到“Opus 4.8”和“Opus 4.8 1M context”会以为是两个模型,其实是同一个模型的两件事:
- 模型本身:Claude Opus 4.8,权重、能力固定不变。
- 上下文窗口:一次能塞进多少 token。Opus 4.8 支持最高 1,000,000(1M)token,但实际是 1M 还是 200K,取决于你的访问方式和档位。
- Effort(努力 / 思考档位):同一个模型在回答前“想多深”。这是另一个维度,和上下文窗口无关。
换句话说:上下文窗口决定“能看多少”,Effort 决定“想多深”,模型决定“底子有多强”。三者独立,下面分开讲。
1M 上下文:什么时候自动开,什么时候是 200K
Opus 4.6 及以后(含 4.8)和 Sonnet 4.6 都支持 1M 上下文,但“能不能用上 1M”要看场景:
| 访问方式 | Opus 4.8 默认上下文 | 说明 |
|---|---|---|
| Claude API / Bedrock / Vertex | 1M(默认) | 最大输出 128K token;Microsoft Foundry 为 200K |
| Claude Code · Max / Team / Enterprise | 1M(自动升级) | opus 模型自动升到 1M,无需任何配置 |
| Claude Code · opusplan 别名 | 计划阶段 200K | 例外:plan 模式的 Opus 阶段不享受 1M 自动升级 |
| 其他较低档位 | 200K | 标准窗口 |
注意那个 opusplan 例外:如果你用 opusplan 混合别名(计划用 Opus、执行用 Sonnet), 计划阶段的 Opus 跑的是标准 200K 窗口,1M 自动升级只对 opus 模型设置生效。 要在超大代码库里做计划,直接用 opus 而非 opusplan。
1M 上下文的实际使用场景
该开 1M 的场景(4.8 这次把长上下文检索 F1 从 40% 提到 68%,“装下还找得准”):
- 把整个中型代码库一次性塞进上下文,跨几十个文件追依赖、做架构级理解
- 超长文档分析:上百页技术规范、合同、论文集合
- 超长会话不想被自动压缩:长 Agent 任务里保留完整历史,减少“失忆”
200K 就够、甚至更好的场景:
- 单文件或少量文件的改动——塞进 1M 只是徒增 token 消耗
- 配额敏感:1M 会话的 token 消耗远高于 200K,订阅档位的用量会掉得更快
- 追求响应速度:超长上下文的处理通常更慢
一句话:1M 是“能力上限”,不是“越大越好”的默认习惯。按任务的真实上下文需要来,省下的配额可以多跑几轮。 想了解不同订阅档位的用量差异,可参考 Max 值不值买的用量测算。
Effort 五档:同一模型,不同“思考深度”
在支持自适应推理的模型上,Effort 是控制“模型在每一步想多少”的主开关。Opus 4.8 有五档:
| 档位 | 适合的编程 / 任务 | 代价 |
|---|---|---|
low | 快速小改、拼写/格式、简短解释、低风险任务 | 最快最省,复杂任务会“想得浅” |
medium | 中等难度、多步但不烧脑的任务 | 平衡档 |
high(4.8 默认) | 复杂推理、难编程、质量优先于速度/成本 | 多数智力型工作的推荐起点 |
xhigh | 高级编程 + 复杂 agentic:反复调工具、深度搜索、长探索 | Anthropic 建议编程从这里起步 |
max | 攻坚硬骨头:要绝对最高能力、不限思考 token | 最慢最贵,仅当前会话生效 |
持久性差异:low/medium/high/xhigh 会跨会话记住;max 只在当前会话生效 (除非用 CLAUDE_CODE_EFFORT_LEVEL 环境变量固定)。切换模型时会重置成该模型默认档, 所以从别的模型切到 Opus 4.8 后,想用非 high 的档位要再跑一次 /effort。
同一模型,不同 Effort 在实际编程里差多少?
核心权衡只有一句:Effort 越高,模型思考越久、花的 token 越多,一次成功率越高、来回越少;但延迟和配额消耗也越高。
- 难任务(跨多文件重构、复杂 Agent 流程):用
low往往“想得太浅”,反复改不对,来回几轮反而更费; 用xhigh一次想透、改对率高,总成本通常更低。 - 简单任务(改个函数、写段样板代码):用
max是浪费——多花一堆思考 token 换不来更好的结果,low/medium又快又省。 - 方法论:Anthropic 建议编程与 agentic 从
xhigh起步,其余智力型任务用high, 只有在你用自己的真实任务“测过质量不掉”之后,才降到 medium/low 去省成本。别凭感觉一上来就降档。
关键变化:不再支持“思考预算”
如果你之前用 API 给 Claude 设置过思考预算,Opus 4.8 这条要改:
- 设置
thinking: {type: "enabled", budget_tokens: N}会直接返回 400 错误。 - 改用自适应思考 + Effort:API 上是
thinking: {type: "adaptive"}搭配output_config: {effort: "high"}。 - 在 Claude Code 里,你不用碰这些底层参数,直接
/effort选档即可。
ultracode:比 max 更进一步
Claude Code 的 /effort 菜单里还有一个特殊项 ultracode。它不是模型 Effort 档位,而是 Claude Code 的一个设置: 它给模型发送 xhigh,并额外让 Claude 为有分量的任务编排动态工作流(自动拆解、并行推进、再综合)。 适合“代码库级”的大活——它和 Opus 4.8 同日上线的“单会话数百并行子智能体”是一套组合拳,详见这篇。
上手清单(Claude Code)
- 升级:Opus 4.8 需要 Claude Code
v2.1.154+,先claude update。 - 切模型:
/model选 Opus 4.8(或opus别名)。 - 确认 1M:Max/Team/Enterprise 下 opus 自动 1M;要超大库计划别用 opusplan。
- 选 Effort:
/effort→ 编程起步xhigh,攻坚临时max,小改low。 - 按需调:用真实任务测,质量不掉再降档省配额。
国内用户无需海外信用卡,通过 ClaudeMax 微信支付订阅 Claude Max(¥980/月起) 即可用上 Opus 4.8 的 1M 上下文与全部 Effort 档位;只想轻量用可以先订 Pro(¥210/月)。付款后约 5 分钟交付 Anthropic 官方席位。
参考:Claude Code 模型配置文档、Claude API“Effort/What's new in Opus 4.8”文档(2026-05)。 具体档位与版本要求以官方文档为准。