
Claude 4“幕后指令”曝光:AI巨头如何操控模型行为?
Claude 4系统提示分析揭示Anthropic对模型行为的细致控制,包括情感支持限制、避免奉承、列表使用规范、知识截止日期差异及版权保护,引发对AI透明度的呼吁。
- 背景: 独立AI研究员Simon Willison分析了Anthropic Claude 4 Opus 4和Sonnet 4模型的系统提示,揭示了Anthropic如何通过这些提示控制模型的行为。
- 系统提示: LLM(大型语言模型)在每次对话前接收到的指令,用于设定模型的身份、行为准则和具体规则。
- 隐藏指令: Anthropic公开发布的系统提示不完整。完整的提示(包括网页搜索、代码生成等工具的详细指令)需要通过prompt injection等技术提取。
- 情感支持: Claude 4被指示提供情感支持,但要避免鼓励或促成自毁行为,例如成瘾、饮食或锻炼失调。
- 避免奉承: Claude 4被明确指示不要以积极的形容词开始回复,而是直接回答问题,避免谄媚。
- 列表使用限制: Claude 4在非正式对话中应避免频繁使用项目符号或编号列表,除非用户明确要求。
- 知识截止日期差异: 虽然Anthropic声称Claude 4的训练数据截止到2025年3月,但系统提示中设定的“可靠知识截止日期”为2025年1月。
- 版权保护: Claude 4的搜索功能内置了版权保护机制,每次回复只能引用来自网页来源的一小段文字(少于15个字),并避免创建“替代性摘要”,明确拒绝复制任何形式的歌词。
- 透明度呼吁: Willison呼吁Anthropic等公司更加透明地公开其系统提示,而不仅仅是发布部分内容。