
罗塞塔石碑启示:AI大模型只识模式,不解语义
Peter Chen
12
8-8原野: 我们今天来聊聊AI,但我想先从一块两百多年前的石头说起,就是1799年在埃及发现的罗塞塔石碑。这块石头很关键,因为它上面刻了三种文字,其中一种是当时已经没人认识的古埃及象形文字。后来,一个叫尚波利翁的语言天才,就是靠着比对石碑上我们认识的古希腊文名字,比如“托勒密”,硬是把这些神秘的符号给破译了。
晓曼: 对,这个故事最妙的地方,就在于尚波利翁的破译方法。他其实并不懂古埃及人是怎么想的,他做的就是纯粹的模式识别和符号对应。而这一点,简直和我们今天天天在用的ChatGPT这些大语言模型,理解我们说话的方式,不能说有点像,只能说是一模一样。
原野: 有点意思。你是说,这种纯粹的“模式识别”,竟然是AI理解语言的基石?那它和我们人真正理解一句话,区别到底在哪儿?
晓曼: 关键就在于,尚波利翁和AI都巧妙地绕开了一个最难的东西,那就是对文化、情感和真实世界经验的深层理解。它们不关心这个符号背后的故事,只关心这个符号和那个符号之间有什么数学关系,有什么统计规律。AI就是抓住了这个“规律”,才能如此惟妙惟肖地模仿我们说话。
原野: 我明白了,所以AI的“理解”,更像是一种效率极高的模式匹配,而不是我们人类这种,带着情感和生活经验的深度认知。那么问题来了,AI是怎么把我们五花八门的文字,变成它能处理的模式的呢?
晓曼: 这个问题就触及核心了。计算机的世界里没有文字,只有数字。所以第一步,必须把词语变成数字。最早的方法特别简单粗暴,就是给每个词一个编号,比如“猫”是58号,“狗”是59号。但问题是,58和59这两个数字本身,完全看不出“猫”和“狗”其实是两种很相似的动物。
原野: 这种编号,感觉就像是给每个词发了张孤立的身份证,互相之间谁也不认识谁。
晓曼: 说得太对了。直到2013年,谷歌提出了一个叫“词嵌入”的技术,才算解决了这个问题。它不再是给一个词一个孤立的编号,而是给每个词一串独特的数字,一个“数字坐标”,或者说向量。
原野: 哦!我好像有点懂了。这就像在一个巨大的地图上,给每个词都找了个位置,意思相近的词,比如“国王”和“王后”,它们的位置就离得很近。甚至还能做数学题,用“国王”的坐标减去“男人”的坐标,再加上“女人”的坐标,最后得到的结果就非常接近“王后”的坐标。
晓曼: 完全正确!这让计算机第一次能够捕捉到词语之间那种微妙的、模糊的关系。虽然还是很初级,但这可以说是计算机真正开始“理解”语言的萌芽。
原野: 那么,当所有的词语都有了自己在数字世界的坐标之后,AI处理语言的核心任务又是什么呢?我听说答案简单到让人有点意外。
晓曼: 是的,简单到就像我们小时候玩的文字接龙。大语言模型最核心的任务,就是在猜“下一个最合适的词是什么”。比如你听到“我昨天去超市买了点…”,你的大脑会自动蹦出“牛奶”、“面包”这些词,而不是“飞机”或者“沙发”。AI做的就是同样的事,只不过它是在一个由海量数据构成的概率世界里进行预测。
原野: 所以我们看ChatGPT能写邮件、写代码、写诗,感觉无所不能,但归根结底,它只是在疯狂地、一个词一个词地预测接下来最可能出现什么?
晓曼: 没错,它的所有魔法都源于这个简单的核心。而真正让这个“猜词游戏”玩得如此出神入化的,是2017年谷歌提出的一个叫Transformer的架构,尤其是里面的“注意力机制”。
原野: “注意力机制”,这名字听起来就很人性化。它到底是怎么让AI在猜词的时候,变得这么聪明,这么有逻辑的?
晓曼: 你可以把它想象成AI学会了“划重点”。比如一句话,“张教授推荐了一本关于量子物理的新书,李同学虽然觉得很难但还是买下了它”。当我们看到最后的“它”时,我们立刻知道指的是“书”,而不是“张教授”或“量子物理”。早期的AI模型很容易在这里搞混,但Transformer的注意力机制,能让AI在处理“它”这个词的时候,把“注意力”更多地放在“书”上面。这种能力让AI生成的内容不仅连贯,而且逻辑严密,效率也比老方法高出几个数量级。
原野: 哇,这确实是质的飞跃。等于说AI有了自己的判断力,知道哪些信息是关键,哪些可以暂时忽略。那这些让AI能够做出判断的“知识”,又是从哪儿来的呢?总不能是工程师一行一行代码喂给它的吧?
晓曼: 当然不是,那得累死。AI的知识,几乎全部来自于对整个互联网海量文本的学习。这个学习过程,就像一场规模超级庞大的“完形填空”考试。
原野: 完形填空?我上学时最头疼的题型。
晓曼: 哈哈,AI也得做。就是从网上扒下来的海量文章里,随机遮住一个词,然后让模型去猜这个词应该是什么。猜对了,给个小奖励;猜错了,就告诉它正确答案,让它调整内部的参数。这个过程重复上万亿次之后,模型内部就自然而然地总结出了语言的无数种统计规律和模式。
原野: 所以,它知道“北京是中国的首都”,不是因为它真的懂地理,而是因为它在学习材料里,看到这句话的模式出现了千百万次,形成了一个超强的概率连接。
晓曼: 正是如此。这又回到了我们最初说的罗塞塔石碑。尚波利翁破译了文字,但他并不需要真的理解古埃及人的宗教和生活。AI也是一样,它“学会”了知识,但它从未“见过”一个真正的苹果,也从未“感受”过什么是悲伤。
原野: 这个区别太关键了。我们人类理解“苹果”,会立刻联想到它的颜色、味道、口感,甚至想到牛顿和万有引力。我们理解“悲伤”,是因为我们自己真切地体验过那种情绪。AI的理解,完全是存在于文本符号构成的虚拟世界里。
晓曼: 对,人类的理解是植根于真实世界的经验、情感、意图和文化背景之中的。而AI的理解,是一种基于文本模式的“模拟理解”。
原野: 这种“模拟理解”和“真实理解”的鸿沟,在AI的行为上会有什么具体的体现吗?会造成什么问题?
晓曼: 问题很典型。首先就是我们常说的“AI幻觉”。当模型对一个问题不太确定的时候,它不会像人一样说“我不知道”,而是会基于它学到的语言模式,“编造”一个听起来最合理、最像人话的答案,但这个答案可能完全是错的。其次是缺乏常识,因为它没有在真实世界里生活过,所以它可能能帮你解一个复杂的微积分方程,但却会回答一些类似“人有三只眼睛”的常识性错误。
原野: 这么一说,AI的这些局限,反而恰恰凸显了我们人类思维的独特价值。我们的意识、情感和身体经验,是它完全无法模拟的。
晓曼: 的确如此。AI的出现,就像一面镜子,它在模仿人类智慧的同时,也照出了人类智慧中那些无法被数据和算法所量化的部分。它挑战了我们对于“理解”和“智能”的传统定义。
原野: 所以,当我们和ChatGPT聊天时,我们其实不是在和一个有独立意识的“它”对话,而是在和整个人类文明在互联网上留下的海量文字的“统计倒影”对话。
晓曼: 这个比喻非常精准。我们是在与一个人类知识的统计映射进行互动。这既是一个技术上的奇迹,也为我们反思自身提供了一个全新的视角。就像罗塞塔石碑帮助我们打开了理解古埃及文明的大门一样,AI这个“新时代的罗塞塔石碑”,也正在帮助我们从一个前所未有的角度,去重新理解语言、思维和我们人类自己。
原野: 我想,这可能就是AI带给我们最宝贵的礼物——不是效率的提升,而是对人类自身独特价值的一次重新发现。
晓曼: 我来总结一下我们今天聊到的关键点吧。首先,大语言模型理解语言的方式,和当年尚波利翁破译罗塞塔石碑一样,本质上都是模式识别,而不是语义理解。其次,从“词嵌入”技术让电脑能理解词语关系,到Transformer架构用“注意力机制”实现高效的逻辑生成,AI的核心任务其实就是一个“猜词游戏”。它的所有知识都来自于对海量文本的“完形填空”式训练,这导致它的“模拟理解”和我们人类基于真实经验的“真实理解”有本质区别,这也是AI产生幻觉和缺乏常识的根源。说到底,通过研究AI的局限,我们反而更能看清人类思维中那些宝贵的、无法被替代的东西。