个人聊天和产品上线不是一回事

个人在 claude.ai 聊天,主要风险是账号和内容合规;你把 Claude API、MCP、浏览器、支付、客服工单或数据库接进产品后, 风险对象就变成了你的终端用户、你的客户数据、你的业务系统和 Anthropic 的 API 账号。

Anthropic 的 API Safeguards Tools 明确建议 API 开发者建立自己的安全程序;不遵守 Terms 或 Usage Policy 可能导致服务访问被暂停或终止。 所以,产品上线前不能只做“模型效果测试”,还要做“风控上线检查”。

第一步:给产品做风险分类

上线前先问五个问题:

  1. 这是公司内部工具,还是对外用户可直接使用的产品?
  2. 输出是否直接面向个人消费者?
  3. 是否涉及法律、金融、就业、医疗、住房、教育录取等高风险领域?
  4. Claude 是否能调用工具、访问外部系统、读写文件、发消息或下单付款?
  5. 终端用户能不能自由输入任何内容,还是只能在受限流程里选择?

风险从低到高大致是:内部只读助手、受限问答机器人、对外客服机器人、高风险 consumer-facing 建议系统、带工具权限的 Agent。 风险越高,越不能只依赖模型自己的拒答。

面向消费者的机器人:必须披露 AI 身份

Anthropic 的 Usage Policy 更新强调,组织使用其工具时,需要帮助自己的用户理解他们正在与 AI 系统互动。 对客服机器人、咨询机器人、自动销售助手、对外 Agent 来说,最简单的做法是在每次会话开始时写清楚:

你正在与 AI 助手对话。它可以帮助整理信息和回答常见问题,但不能替代人工客服、律师、医生、金融顾问或其他专业人士。重要事项请联系人工确认。

这不是装饰文案,而是产品风控的一部分。不要把 AI 包装成人类员工,也不要让用户误以为 AI 已经完成专业判断。

高风险 consumer-facing 场景:人工复核 + AI 披露

Anthropic 在 Usage Policy Update 中说明,高风险 consumer-facing 用例包括法律、金融、就业等具有公共福祉和社会公平影响的用途, 需要额外 safeguards,例如 human-in-the-loop oversight 和 AI disclosure。

场景能不能用 Claude必须加什么
律师内部起草合同可以作为辅助律师人工复核后再发客户
面向消费者给投资建议高风险AI 披露、资质人员复核、风险提示
HR 用来筛选候选人高风险人工最终决策、公平性审查、记录依据
客服机器人回答退款规则可以AI 身份披露、人工升级入口、知识库约束

关键分界是:模型输出是否直接影响消费者的法律、经济、就业或类似权益。越接近“替用户做决定”,越需要人类把关。

API 风控的最低配置

Anthropic API Safeguards Tools 给了很实用的分层建议。整理成可执行清单:

  • 记录 API call ID:违规发生时能定位是哪次调用。
  • 给终端用户分配内部 ID:识别重复违规用户;如传给 Anthropic,应做哈希处理保护隐私。
  • 要求用户注册或登录:不要让完全匿名用户无限调用高成本模型。
  • 明确允许用途和禁止用途:在产品条款、输入框旁和 onboarding 里说明。
  • 对重复违规用户处理:警告、限流、暂停、人工审核。
  • 限制 prompt 空间:高风险产品尽量用受限流程和知识库,不开放任意 prompt。
  • 使用过滤和审核:对输入做预过滤,对输出做后过滤,高风险命中进入人工队列。

Agent 和工具调用:权限边界是核心

Anthropic 的 Using Agents According to Our Usage Policy 文档列出了一批 agentic 场景下不能做的事情,包括未经通知或同意监控个人活动、收集个人信息建立敏感画像、使用生物识别、创建仿冒网站、钓鱼社工、批量滥用、操纵投票或流量、创建多账号规避检测、未授权系统访问、安装恶意软件、执行提权或漏洞利用命令、未授权金融交易或支付处理等。

对开发者来说,落地规则是:

  • Agent 只能访问完成任务所需的最小工具。
  • 读取、写入、发送、支付、删除、发布等动作要分级授权。
  • 高影响动作必须二次确认,不能让模型静默执行。
  • 工具调用要有审计日志:谁触发、何时触发、参数是什么、结果是什么。
  • 不要把用户存储的凭证直接交给 Agent 去操作别人的账号。

网络安全产品:注意实时 cyber safeguards

Anthropic 已在 Opus 和 Sonnet 模型上推出 real-time cyber safeguards。官方说明目前会阻断两类活动:几乎总是恶意、几乎没有防御用途的 prohibited use,例如大规模数据外泄和勒索软件代码; 以及具有合法防御用途但高风险的 dual-use 活动,例如漏洞利用或 offensive security tooling。

合法防御性用户如果被影响,可以按官方 Cyber Verification Program 申请调整。 但这不是“开白名单随便做攻击”,而是为了让专业安全人员在授权、防御、最小化危害的场景里减少误拦截。

上线前 12 项检查表

  1. 产品已明确标注 AI 身份。
  2. 用户条款写明允许和禁止用途。
  3. 每个终端用户有可追踪的内部 ID。
  4. 每次 Claude API 调用能回溯到用户、会话和请求。
  5. 高风险输入有预过滤或受限流程。
  6. 高风险输出有后过滤或人工复核。
  7. 重复违规用户会被警告、限流或暂停。
  8. Agent 工具有最小权限,不给默认全权限。
  9. 删除、支付、发送、发布等高影响动作有二次确认。
  10. 工具调用和重要决策有审计日志。
  11. 法律、金融、就业等 consumer-facing 输出有人类专业复核。
  12. 出现 warning 或 API 风控后,有内部处理和申诉负责人。

一个推荐架构

对大多数中小团队,建议从下面这个简单架构开始:

  1. 前端:会话开始显示 AI 身份和风险提示。
  2. 网关:记录 user_id、session_id、request_id、model、工具权限。
  3. 输入过滤:拦截明显违规请求,灰色请求转人工或降级回答。
  4. Claude 调用:按任务限制系统提示词、知识库和可用工具。
  5. 工具层:每个工具单独授权,敏感动作必须确认。
  6. 输出过滤:对法律、金融、就业等输出加人工复核或免责声明。
  7. 风控台:统计 warning、拒答、违规用户、异常调用和人工审核结果。

这套架构不复杂,但能把“模型安全”变成“产品安全”。产品上线后,风控不是一次性配置,而是持续运营。

相关阅读

如果你是个人用户,先看 Claude 账号风控完整指南。 如果你需要完整政策背景,看 Claude 用户手册完全解读。 如果你的产品里接了工具和本地服务,再配合 Claude MCP 教程 一起读。