个人聊天和产品上线不是一回事
个人在 claude.ai 聊天,主要风险是账号和内容合规;你把 Claude API、MCP、浏览器、支付、客服工单或数据库接进产品后, 风险对象就变成了你的终端用户、你的客户数据、你的业务系统和 Anthropic 的 API 账号。
Anthropic 的 API Safeguards Tools 明确建议 API 开发者建立自己的安全程序;不遵守 Terms 或 Usage Policy 可能导致服务访问被暂停或终止。 所以,产品上线前不能只做“模型效果测试”,还要做“风控上线检查”。
第一步:给产品做风险分类
上线前先问五个问题:
- 这是公司内部工具,还是对外用户可直接使用的产品?
- 输出是否直接面向个人消费者?
- 是否涉及法律、金融、就业、医疗、住房、教育录取等高风险领域?
- Claude 是否能调用工具、访问外部系统、读写文件、发消息或下单付款?
- 终端用户能不能自由输入任何内容,还是只能在受限流程里选择?
风险从低到高大致是:内部只读助手、受限问答机器人、对外客服机器人、高风险 consumer-facing 建议系统、带工具权限的 Agent。 风险越高,越不能只依赖模型自己的拒答。
面向消费者的机器人:必须披露 AI 身份
Anthropic 的 Usage Policy 更新强调,组织使用其工具时,需要帮助自己的用户理解他们正在与 AI 系统互动。 对客服机器人、咨询机器人、自动销售助手、对外 Agent 来说,最简单的做法是在每次会话开始时写清楚:
你正在与 AI 助手对话。它可以帮助整理信息和回答常见问题,但不能替代人工客服、律师、医生、金融顾问或其他专业人士。重要事项请联系人工确认。
这不是装饰文案,而是产品风控的一部分。不要把 AI 包装成人类员工,也不要让用户误以为 AI 已经完成专业判断。
高风险 consumer-facing 场景:人工复核 + AI 披露
Anthropic 在 Usage Policy Update 中说明,高风险 consumer-facing 用例包括法律、金融、就业等具有公共福祉和社会公平影响的用途, 需要额外 safeguards,例如 human-in-the-loop oversight 和 AI disclosure。
| 场景 | 能不能用 Claude | 必须加什么 |
|---|---|---|
| 律师内部起草合同 | 可以作为辅助 | 律师人工复核后再发客户 |
| 面向消费者给投资建议 | 高风险 | AI 披露、资质人员复核、风险提示 |
| HR 用来筛选候选人 | 高风险 | 人工最终决策、公平性审查、记录依据 |
| 客服机器人回答退款规则 | 可以 | AI 身份披露、人工升级入口、知识库约束 |
关键分界是:模型输出是否直接影响消费者的法律、经济、就业或类似权益。越接近“替用户做决定”,越需要人类把关。
API 风控的最低配置
Anthropic API Safeguards Tools 给了很实用的分层建议。整理成可执行清单:
- 记录 API call ID:违规发生时能定位是哪次调用。
- 给终端用户分配内部 ID:识别重复违规用户;如传给 Anthropic,应做哈希处理保护隐私。
- 要求用户注册或登录:不要让完全匿名用户无限调用高成本模型。
- 明确允许用途和禁止用途:在产品条款、输入框旁和 onboarding 里说明。
- 对重复违规用户处理:警告、限流、暂停、人工审核。
- 限制 prompt 空间:高风险产品尽量用受限流程和知识库,不开放任意 prompt。
- 使用过滤和审核:对输入做预过滤,对输出做后过滤,高风险命中进入人工队列。
Agent 和工具调用:权限边界是核心
Anthropic 的 Using Agents According to Our Usage Policy 文档列出了一批 agentic 场景下不能做的事情,包括未经通知或同意监控个人活动、收集个人信息建立敏感画像、使用生物识别、创建仿冒网站、钓鱼社工、批量滥用、操纵投票或流量、创建多账号规避检测、未授权系统访问、安装恶意软件、执行提权或漏洞利用命令、未授权金融交易或支付处理等。
对开发者来说,落地规则是:
- Agent 只能访问完成任务所需的最小工具。
- 读取、写入、发送、支付、删除、发布等动作要分级授权。
- 高影响动作必须二次确认,不能让模型静默执行。
- 工具调用要有审计日志:谁触发、何时触发、参数是什么、结果是什么。
- 不要把用户存储的凭证直接交给 Agent 去操作别人的账号。
网络安全产品:注意实时 cyber safeguards
Anthropic 已在 Opus 和 Sonnet 模型上推出 real-time cyber safeguards。官方说明目前会阻断两类活动:几乎总是恶意、几乎没有防御用途的 prohibited use,例如大规模数据外泄和勒索软件代码; 以及具有合法防御用途但高风险的 dual-use 活动,例如漏洞利用或 offensive security tooling。
合法防御性用户如果被影响,可以按官方 Cyber Verification Program 申请调整。 但这不是“开白名单随便做攻击”,而是为了让专业安全人员在授权、防御、最小化危害的场景里减少误拦截。
上线前 12 项检查表
- 产品已明确标注 AI 身份。
- 用户条款写明允许和禁止用途。
- 每个终端用户有可追踪的内部 ID。
- 每次 Claude API 调用能回溯到用户、会话和请求。
- 高风险输入有预过滤或受限流程。
- 高风险输出有后过滤或人工复核。
- 重复违规用户会被警告、限流或暂停。
- Agent 工具有最小权限,不给默认全权限。
- 删除、支付、发送、发布等高影响动作有二次确认。
- 工具调用和重要决策有审计日志。
- 法律、金融、就业等 consumer-facing 输出有人类专业复核。
- 出现 warning 或 API 风控后,有内部处理和申诉负责人。
一个推荐架构
对大多数中小团队,建议从下面这个简单架构开始:
- 前端:会话开始显示 AI 身份和风险提示。
- 网关:记录 user_id、session_id、request_id、model、工具权限。
- 输入过滤:拦截明显违规请求,灰色请求转人工或降级回答。
- Claude 调用:按任务限制系统提示词、知识库和可用工具。
- 工具层:每个工具单独授权,敏感动作必须确认。
- 输出过滤:对法律、金融、就业等输出加人工复核或免责声明。
- 风控台:统计 warning、拒答、违规用户、异常调用和人工审核结果。
这套架构不复杂,但能把“模型安全”变成“产品安全”。产品上线后,风控不是一次性配置,而是持续运营。
相关阅读
如果你是个人用户,先看 Claude 账号风控完整指南。 如果你需要完整政策背景,看 Claude 用户手册完全解读。 如果你的产品里接了工具和本地服务,再配合 Claude MCP 教程 一起读。