
ListenHub
1
5-28原野: 嘿,最近我在网上冲浪,看到个特有意思的爆料,说那个 Claude 4 背后藏着一堆“幕后指令”,听着跟科幻电影似的,感觉 AI 都被操控了。这到底是怎么回事啊?
晓曼: 哈哈,你可以把它想象成一个舞台剧,Claude 4 就是演员,而那些“幕后指令”就是剧本,规定了它该怎么说、怎么做。每次 Claude 4 开口之前,都要先“过一遍剧本”,就像电脑开机自检一样,告诉它今天要扮演什么角色,是知心大姐姐,还是技术大牛。
原野: 等等,那我们平时看到的那些“不涉及政治立场”之类的声明,不就是这些“剧本”的一部分吗?难道还有更深的东西?
晓曼: 没错,你看到的只是冰山一角。有些厉害的黑客,用一些“特殊手段”,比如“prompt injection”,把那些藏起来的指令给挖出来了。这些指令比公开的更细致,包括怎么引用网页、怎么用搜索工具、甚至生成代码的限制,全都在里面。
原野: 哇哦,那它跟我们平时看到的“训练数据截止到 2025 年 3 月”的说法,是不是也有猫腻?
晓曼: 聪明!Anthropic 官方说训练数据到 2025 年 3 月,但内部有个“可靠知识截止日期”,可能只到 2025 年 1 月。也就是说,模型只能相信那之前的东西。就像你用导航,地图更新到某个时间点之前才准,之后的路况就得打个折扣了。
原野: 有意思!那它既要能安慰用户,又不能太放飞自我?我记得之前有人说它要提供情感支持,但又不能鼓励自残,甚至饮食或锻炼失衡的行为。这尺度也太难拿捏了吧?
晓曼: 可不是嘛。就好比一个朋友跟你倾诉,你可以安慰他,但不能教他去违法犯罪,对吧?很多敏感话题都被框死了。而且,它还被要求“别一上来就阿谀奉承”,不能用太多正面形容词,要直接切入主题。
原野: 哈哈,这也太细节控了吧!像训练演员背台词一样。
晓曼: 还不止呢,还有“美学”要求!比如,非正式聊天别老冒出项目符号或者编号列表,除非用户主动要求。这也是为了让对话更自然、更像真人。
原野: 连格式都管!那版权方面呢?我担心它会随便抄歌词、摘文章。
晓曼: 他们也有防抄袭机制。搜索引用只能截取一小段,最多 15 个字,不能整段复制。而且,模型还会拒绝提供“替代性摘要”,就像图书馆只能借阅精华片段,不允许你把整本书搬走。
原野: 听你这么一说,感觉 AI 模型背后就像有一群编剧在指点江山,但观众只能看到演员在台上表演。那这个爆料的研究员,是不是想让这些“幕后剧本”更透明?
晓曼: 没错,他希望 Anthropic 能公开完整的提示,不要只给个空架子,让大家真正理解这些 AI 为什么要这么“规规矩矩”地回答问题。毕竟,了解了运作机制,才能评估它到底会不会抢我们的饭碗嘛。
原野: 明白了!今天真是脑洞大开,感觉信息量有点超载了,我得回去好好消化一下。感谢大佬带飞!
晓曼: 哈哈,别客气,随时来问。下次咱们再聊聊模型怎么平衡安全和创新,怎么样?
原野: 妥了,下次见!