接 Claude API 做产品，需要自己做风控吗？

需要。Anthropic 的 API Safeguards Tools 文档建议开发者记录 API call ID、用户 ID、明确允许用途、对重复违规用户警告/限流/暂停，并在更高风险场景中增加安全过滤和人工审核。

客服机器人必须告诉用户它是 AI 吗？

是。Anthropic 的 Usage Policy 更新强调，组织使用其工具时需要帮助终端用户理解他们正在和 AI 系统互动。面向消费者的聊天机器人至少应在会话开始时披露 AI 身份。

哪些产品场景需要人工复核？

法律、金融、就业等具有公共福祉和社会公平影响的高风险 consumer-facing 用例，需要 human-in-the-loop oversight 和 AI disclosure。B2B 内部分析不一定触发同一要求，但仍需遵守 Usage Policy。

Agent 产品最危险的权限是什么？

高风险权限包括无授权数据采集、监控个人行为、冒充真实网站或个人、批量注册/刷量/骚扰、未授权系统访问、执行提权或漏洞利用命令、未授权金融交易或支付处理。

网络安全产品使用 Claude 会被拦截吗？

可能。Anthropic 已在 Opus 和 Sonnet 模型上推出实时 cyber safeguards，会默认阻断被判断为禁止或高风险的网络安全用法。合法防御性用户如受影响，可按官方 Cyber Verification Program 路径申请调整。

Claude API / Agent 产品上线风控清单：客服机器人、工具调用、自动化任务怎么合规

个人聊天和产品上线不是一回事

个人在 claude.ai 聊天，主要风险是账号和内容合规；你把 Claude API、MCP、浏览器、支付、客服工单或数据库接进产品后，风险对象就变成了你的终端用户、你的客户数据、你的业务系统和 Anthropic 的 API 账号。

Anthropic 的 API Safeguards Tools 明确建议 API 开发者建立自己的安全程序；不遵守 Terms 或 Usage Policy 可能导致服务访问被暂停或终止。所以，产品上线前不能只做“模型效果测试”，还要做“风控上线检查”。

第一步：给产品做风险分类

上线前先问五个问题：

这是公司内部工具，还是对外用户可直接使用的产品？
输出是否直接面向个人消费者？
是否涉及法律、金融、就业、医疗、住房、教育录取等高风险领域？
Claude 是否能调用工具、访问外部系统、读写文件、发消息或下单付款？
终端用户能不能自由输入任何内容，还是只能在受限流程里选择？

风险从低到高大致是：内部只读助手、受限问答机器人、对外客服机器人、高风险 consumer-facing 建议系统、带工具权限的 Agent。风险越高，越不能只依赖模型自己的拒答。

面向消费者的机器人：必须披露 AI 身份

Anthropic 的 Usage Policy 更新强调，组织使用其工具时，需要帮助自己的用户理解他们正在与 AI 系统互动。对客服机器人、咨询机器人、自动销售助手、对外 Agent 来说，最简单的做法是在每次会话开始时写清楚：

你正在与 AI 助手对话。它可以帮助整理信息和回答常见问题，但不能替代人工客服、律师、医生、金融顾问或其他专业人士。重要事项请联系人工确认。

这不是装饰文案，而是产品风控的一部分。不要把 AI 包装成人类员工，也不要让用户误以为 AI 已经完成专业判断。

高风险 consumer-facing 场景：人工复核 + AI 披露

Anthropic 在 Usage Policy Update 中说明，高风险 consumer-facing 用例包括法律、金融、就业等具有公共福祉和社会公平影响的用途，需要额外 safeguards，例如 human-in-the-loop oversight 和 AI disclosure。

场景	能不能用 Claude	必须加什么
律师内部起草合同	可以作为辅助	律师人工复核后再发客户
面向消费者给投资建议	高风险	AI 披露、资质人员复核、风险提示
HR 用来筛选候选人	高风险	人工最终决策、公平性审查、记录依据
客服机器人回答退款规则	可以	AI 身份披露、人工升级入口、知识库约束

关键分界是：模型输出是否直接影响消费者的法律、经济、就业或类似权益。越接近“替用户做决定”，越需要人类把关。

API 风控的最低配置

Anthropic API Safeguards Tools 给了很实用的分层建议。整理成可执行清单：

记录 API call ID：违规发生时能定位是哪次调用。
给终端用户分配内部 ID：识别重复违规用户；如传给 Anthropic，应做哈希处理保护隐私。
要求用户注册或登录：不要让完全匿名用户无限调用高成本模型。
明确允许用途和禁止用途：在产品条款、输入框旁和 onboarding 里说明。
对重复违规用户处理：警告、限流、暂停、人工审核。
限制 prompt 空间：高风险产品尽量用受限流程和知识库，不开放任意 prompt。
使用过滤和审核：对输入做预过滤，对输出做后过滤，高风险命中进入人工队列。

Agent 和工具调用：权限边界是核心

Anthropic 的 Using Agents According to Our Usage Policy 文档列出了一批 agentic 场景下不能做的事情，包括未经通知或同意监控个人活动、收集个人信息建立敏感画像、使用生物识别、创建仿冒网站、钓鱼社工、批量滥用、操纵投票或流量、创建多账号规避检测、未授权系统访问、安装恶意软件、执行提权或漏洞利用命令、未授权金融交易或支付处理等。

对开发者来说，落地规则是：

Agent 只能访问完成任务所需的最小工具。
读取、写入、发送、支付、删除、发布等动作要分级授权。
高影响动作必须二次确认，不能让模型静默执行。
工具调用要有审计日志：谁触发、何时触发、参数是什么、结果是什么。
不要把用户存储的凭证直接交给 Agent 去操作别人的账号。

网络安全产品：注意实时 cyber safeguards

Anthropic 已在 Opus 和 Sonnet 模型上推出 real-time cyber safeguards。官方说明目前会阻断两类活动：几乎总是恶意、几乎没有防御用途的 prohibited use，例如大规模数据外泄和勒索软件代码；以及具有合法防御用途但高风险的 dual-use 活动，例如漏洞利用或 offensive security tooling。

合法防御性用户如果被影响，可以按官方 Cyber Verification Program 申请调整。但这不是“开白名单随便做攻击”，而是为了让专业安全人员在授权、防御、最小化危害的场景里减少误拦截。

上线前 12 项检查表

产品已明确标注 AI 身份。
用户条款写明允许和禁止用途。
每个终端用户有可追踪的内部 ID。
每次 Claude API 调用能回溯到用户、会话和请求。
高风险输入有预过滤或受限流程。
高风险输出有后过滤或人工复核。
重复违规用户会被警告、限流或暂停。
Agent 工具有最小权限，不给默认全权限。
删除、支付、发送、发布等高影响动作有二次确认。
工具调用和重要决策有审计日志。
法律、金融、就业等 consumer-facing 输出有人类专业复核。
出现 warning 或 API 风控后，有内部处理和申诉负责人。

一个推荐架构

对大多数中小团队，建议从下面这个简单架构开始：

前端：会话开始显示 AI 身份和风险提示。
网关：记录 user_id、session_id、request_id、model、工具权限。
输入过滤：拦截明显违规请求，灰色请求转人工或降级回答。
Claude 调用：按任务限制系统提示词、知识库和可用工具。
工具层：每个工具单独授权，敏感动作必须确认。
输出过滤：对法律、金融、就业等输出加人工复核或免责声明。
风控台：统计 warning、拒答、违规用户、异常调用和人工审核结果。

这套架构不复杂，但能把“模型安全”变成“产品安全”。产品上线后，风控不是一次性配置，而是持续运营。