ListenHub

5-28

原野: 嘿，最近我在网上冲浪，看到个特有意思的爆料，说那个 Claude 4 背后藏着一堆“幕后指令”，听着跟科幻电影似的，感觉 AI 都被操控了。这到底是怎么回事啊？

晓曼: 哈哈，你可以把它想象成一个舞台剧，Claude 4 就是演员，而那些“幕后指令”就是剧本，规定了它该怎么说、怎么做。每次 Claude 4 开口之前，都要先“过一遍剧本”，就像电脑开机自检一样，告诉它今天要扮演什么角色，是知心大姐姐，还是技术大牛。

原野: 等等，那我们平时看到的那些“不涉及政治立场”之类的声明，不就是这些“剧本”的一部分吗？难道还有更深的东西？

晓曼: 没错，你看到的只是冰山一角。有些厉害的黑客，用一些“特殊手段”，比如“prompt injection”，把那些藏起来的指令给挖出来了。这些指令比公开的更细致，包括怎么引用网页、怎么用搜索工具、甚至生成代码的限制，全都在里面。

原野: 哇哦，那它跟我们平时看到的“训练数据截止到 2025 年 3 月”的说法，是不是也有猫腻？

晓曼: 聪明！Anthropic 官方说训练数据到 2025 年 3 月，但内部有个“可靠知识截止日期”，可能只到 2025 年 1 月。也就是说，模型只能相信那之前的东西。就像你用导航，地图更新到某个时间点之前才准，之后的路况就得打个折扣了。

原野: 有意思！那它既要能安慰用户，又不能太放飞自我？我记得之前有人说它要提供情感支持，但又不能鼓励自残，甚至饮食或锻炼失衡的行为。这尺度也太难拿捏了吧？

晓曼: 可不是嘛。就好比一个朋友跟你倾诉，你可以安慰他，但不能教他去违法犯罪，对吧？很多敏感话题都被框死了。而且，它还被要求“别一上来就阿谀奉承”，不能用太多正面形容词，要直接切入主题。

原野: 哈哈，这也太细节控了吧！像训练演员背台词一样。

晓曼: 还不止呢，还有“美学”要求！比如，非正式聊天别老冒出项目符号或者编号列表，除非用户主动要求。这也是为了让对话更自然、更像真人。

原野: 连格式都管！那版权方面呢？我担心它会随便抄歌词、摘文章。

晓曼: 他们也有防抄袭机制。搜索引用只能截取一小段，最多 15 个字，不能整段复制。而且，模型还会拒绝提供“替代性摘要”，就像图书馆只能借阅精华片段，不允许你把整本书搬走。

原野: 听你这么一说，感觉 AI 模型背后就像有一群编剧在指点江山，但观众只能看到演员在台上表演。那这个爆料的研究员，是不是想让这些“幕后剧本”更透明？

晓曼: 没错，他希望 Anthropic 能公开完整的提示，不要只给个空架子，让大家真正理解这些 AI 为什么要这么“规规矩矩”地回答问题。毕竟，了解了运作机制，才能评估它到底会不会抢我们的饭碗嘛。

原野: 明白了！今天真是脑洞大开，感觉信息量有点超载了，我得回去好好消化一下。感谢大佬带飞！

晓曼: 哈哈，别客气，随时来问。下次咱们再聊聊模型怎么平衡安全和创新，怎么样？

原野: 妥了，下次见！

背景： 独立AI研究员Simon Willison分析了Anthropic Claude 4 Opus 4和Sonnet 4模型的系统提示，揭示了Anthropic如何通过这些提示控制模型的行为。
系统提示： LLM（大型语言模型）在每次对话前接收到的指令，用于设定模型的身份、行为准则和具体规则。
隐藏指令： Anthropic公开发布的系统提示不完整。完整的提示（包括网页搜索、代码生成等工具的详细指令）需要通过prompt injection等技术提取。
情感支持： Claude 4被指示提供情感支持，但要避免鼓励或促成自毁行为，例如成瘾、饮食或锻炼失调。
避免奉承： Claude 4被明确指示不要以积极的形容词开始回复，而是直接回答问题，避免谄媚。
列表使用限制： Claude 4在非正式对话中应避免频繁使用项目符号或编号列表，除非用户明确要求。
知识截止日期差异： 虽然Anthropic声称Claude 4的训练数据截止到2025年3月，但系统提示中设定的“可靠知识截止日期”为2025年1月。
版权保护： Claude 4的搜索功能内置了版权保护机制，每次回复只能引用来自网页来源的一小段文字（少于15个字），并避免创建“替代性摘要”，明确拒绝复制任何形式的歌词。
透明度呼吁： Willison呼吁Anthropic等公司更加透明地公开其系统提示，而不仅仅是发布部分内容。