苏哲: 通用人工智能,也就是AGI,这个词听起来既让人兴奋,又有点科幻。我们总听到说它马上就要来了,会颠覆一切。但今天,我们想深入聊一个不太一样的声音:为什么有人觉得,AGI的真正到来,可能比我们想象的要晚得多?
国栋: 没错,这其实不是简单的技术争论,更像是一场对我们到底怎么理解“智能”本身的深刻反思。我们先来看看现在最火的大语言模型,也就是LLM。它们能处理海量的文本,理解、生成语言,很多人都觉得这简直跟魔法一样。
苏哲: 对,各种演示视频里,感觉它什么都能干。但有意思的是,有观点认为,在实际的白领工作里,它们好像并没有发挥出人们期待的那种革命性的作用。
国栋: 这就是矛盾所在。我们看到演示里AI无所不能,但真要用起来,就不是那么回事了。比如文章作者就亲身试过,让他用LLM来处理播客的后期工作,像是把录音稿重写一下,或者识别里面的关键内容。你猜他最后给了几分?满分10分,他只给了5分。
苏哲: 才5分?这有点出乎意料。按理说,处理文字这种“语言输入,语言输出”的任务,不正是LLM的强项吗?为什么表现还是这么平庸?
国栋: 这就点到问题的核心了。这个“5分”恰恰说明,LLM的“魔法”可能更多停留在表面,它能模仿语言的模式,但对语言背后的深层含义、上下文的细微差别,理解得还很肤浅。它知道“说什么”,但不知道“为什么这么说”。
苏哲: 我明白了。所以从一个企业管理者的角度看,他们要的可能不只是一个能写东西的工具,而是要一个可靠、能交付成果的“员工”。
国栋: 完全正确。所以文章里那个洞察特别犀利,说财富500强公司迟迟没有用LLM来彻底改造工作流程,问题根本不在于管理层思想守旧、跟不上时代。真实的原因是,想从现在的LLM身上,获得一份“正常水平的人类劳动成果”,真的太难了。
苏哲: “正常水平的人类劳动成果”,这个说法很有意思。具体是指哪些东西是AI现在给不了的?
国栋: 比如常识判断、情境理解、主动性,还有最重要的,长期的专注度和可靠性。一个真正的人类员工,你会交给他一个任务,然后相信他能搞定中间的各种小麻烦。但AI不行,你得把每一步都指令得清清楚楚,它还可能随时给你一个意想不到的“惊喜”。这种不确定性,在商业环境里是致命的。
苏哲: 所以,尽管LLM展现出了惊人的语言能力,但在实际工作场景中,它似乎仍缺乏人类那种“举一反三”、“持续改进”的能力,而这恰恰引出了我们接下来要探讨的另一个核心瓶颈:持续学习。
国栋: 是的,这可以说是AI从一个强大的“工具”进化到真正的“智能体”的最大障碍。人类是怎么学习的?我们通过不断的练习、接收反馈、从错误里反思,技能才会越来越好。这是一个动态的、有机的过程。
苏哲: 那AI呢?它们不是也能通过数据来“学习”吗?
国栋: 此“学习”非彼“学习”。现在的AI模型,能力基本是“开箱即用”的,出厂时多强,之后基本就那么强了,不会因为用得多了就自己变得更聪明。作者打了个特别生动的比方,这就像教一个孩子吹萨克斯风。
苏哲: 哦?怎么说?
国栋: 人类孩子是通过自己一次次的吹奏,感受气息的变化,听音准的反馈,慢慢找到感觉的。而现在的AI,更像是你给它一本如何吹萨克斯风的说明书,它能完美复述书里的内容,但它自己从来没吹过,也无法通过练习来改进。它犯了错,你得重新给它一本更详细的说明书,它并不能真正“领悟”到问题出在哪。
苏哲: 但是,我听说过一种叫“强化学习”的技术,就是让AI不断试错,做对了给奖励,做错了给惩罚,这不就是一种持续学习吗?
国栋: 嗯,这是个好问题。强化学习确实是一种优化方式,但作者认为,它和人类那种“有意识、适应性强”的学习还是有本质区别的。AI的强化学习更像是在一个预设的框架内寻找最优解,而不是真正理解了任务本身。而且,它还有一个致命弱点:遗忘。
苏哲: 遗忘?
国栋: 对。比如你在跟一个聊天机器人对话,你花了很多时间教它你的写作偏好,在这次对话里,它表现得越来越懂你。但一旦你关掉窗口,开始一次新的对话,它就把刚才学到的一切都忘得一干二净了。这种“微妙的理解”是暂时的,无法沉淀为永久的能力。
苏哲: 那现在不是有“长上下文窗口”技术吗?据说能记住几十万甚至上百万字的对话内容,这也不能解决问题?
国栋: 作者对这个技术也提出了质疑。他那个比喻又来了,他说指望长上下文窗口来学习复杂的、默会的知识,就像是“试图通过阅读一篇文字摘要来教会一个人吹萨克斯风”。有些知识,比如骑自行车、游泳,或者处理复杂人际关系的技巧,是无法完全用语言描述的,必须亲身实践。这种“默会知识”,恰恰是人类智能的核心部分,也是AI目前最难逾越的鸿沟。
苏哲: 这么说来,持续学习确实是AI从一个强大的工具进化为真正智能体的关键。然而,即便AI的“学习”能力有所提升,当它要去执行一些更复杂的任务,比如要跟我们的电脑进行大量交互时,是不是又会碰到新的麻烦?
国栋: 那挑战就更大了。很多人对AI代理的前景非常乐观,觉得很快AI就能帮我们自动完成所有电脑操作,比如端到端地完成报税。但作者认为,这里面有几个非常棘手的障碍。
苏哲: 愿闻其详。
国栋: 首先,任务周期变得极长,计算量也大得惊人。你想想报税这个过程,它不是一次对话就完事了。你需要登录网站、下载表格、打开Excel、输入数据、扫描票据、再上传文件……这一连串的操作,对AI来说就是一个非常长的“执行序列”。
苏哲: 这和我们平时用ChatGPT写一首诗有什么不同?
国栋: 写诗是单一任务,而报税是多步骤、多软件、多模态的任务。AI不仅要处理文字,还要识别界面上的按钮、看懂图片里的发票,甚至可能要处理视频。每增加一种数据类型,计算的负担都是指数级增长的。更重要的是,你怎么去评估它做得对不对?中间任何一步出错了,结果都可能是灾难性的。
苏哲: 这听起来确实比单纯聊天要复杂得多。那是不是意味着,训练这种AI代理,也需要完全不同的数据?
国栋: 你问到点子上了。这是另一个巨大的瓶颈:数据饥渴。LLM之所以这么厉害,是因为整个互联网的海量文本,都是它免费的、现成的“预训练语料库”。但是,哪里有海量的、公开的“人类如何使用电脑完成复杂任务”的屏幕录像数据呢?几乎没有。
苏哲: 也就是说,AI想学怎么“干活”,却找不到足够的“教材”。
国栋: 正是如此。我们既缺乏足够的数据去训练它,也缺乏足够高效的算法去处理这种复杂的、多步骤的任务。作者提到,即便是在算法相对成熟的推理模型领域,一个创新也需要好几年才能完善。更何况是在这种数据稀疏、任务棘手的计算机使用领域。这可能意味着,AI代理的发展速度,会比我们之前看到的语言模型要慢得多。
苏哲: 可见,即使AI的推理能力再强,一旦涉及到与复杂现实世界的交互,尤其是在缺乏充足训练数据的领域,其落地仍然面临重重挑战。但这是否意味着当前的AI一无是处呢?我记得作者好像也肯定了AI在某些方面的惊人进步。
国栋: 对,这正是整个话题最矛盾也最迷人的地方。尽管我们聊了这么多局限,但作者对一些最先进的模型,比如o3或Gemini 2.5,给出了极高的评价,说它们的“推理轨迹”令人印象深刻。
苏哲: “推理轨迹”?这是个专业术语,能解释一下吗?
国栋: 当然。意思就是说,这些模型在解决问题时,展现出了一种类似人类的思考过程。它能够把一个复杂问题分解成几个小步骤,思考用户的真实意图,甚至会进行一种“内心独白”,如果发现自己想错了,还会自我纠正。
苏哲: 哇,还会自我纠正?这听起来就很智能了。
国栋: 是的。作者举了一个例子,他亲眼看到像Claude Code这样的模型,在几乎没有经过任何特定训练的情况下(也就是所谓的“零样本”),只凭一个模糊的需求,就生成了一个可以正常工作的应用程序。他说那种感觉简直是“疯狂”的,这预示着一种“婴儿通用智能”已经出现了。
苏哲: “婴儿通用智能”,这个词太有画面感了。但这不就产生了一个巨大的矛盾吗?我们刚刚还在说它连处理播客稿件都只值5分,现在又说它有了“婴儿通用智能”。
国栋: 这就是那个核心的张力所在。我们可以把AI比作一个拥有天才大脑,但身体协调能力和生活经验都严重不足的孩子。它能理解非常复杂的逻辑和理论,甚至能进行哲学思辨,但你让它自己穿衣服、系鞋带,它可能就手忙脚乱了。
苏哲: 我明白了。所以AI的“思考”能力和“行动”能力,像是两条发展速度不匹配的平行线。
国栋: 可以这么理解。AI在内在智能,也就是“思考”层面,确实在飞速进步。但在实际应用,也就是“做事”层面,由于我们前面聊到的持续学习、数据缺乏等问题,它还步履维艰。“智能”本身是个多维度的概念,我们可能只是在其中一两个维度上取得了突破。从“能思考”到“能做事”,这个鸿沟可能才是通往AGI道路上最难跨越的障碍。
苏哲: 这种矛盾让我们对AI的未来充满了期待,但也更加清醒地认识到其中的挑战。那么,基于这些认知,作者对AGI的到来给出了怎样的具体预测?
国栋: 他给出了一个非常有趣的预测,说AGI到来的时间线,呈现一种“非常对数正态”的分布。
苏哲: 又是一个术语,“对数正态分布”,什么意思?
国栋: 简单来说,就是“要么很快发生,要么会晚得多”,不太可能是一个平滑、线性的发展过程。它要么在某个临界点后突然爆发,要么就可能长期停滞。
苏哲: 那这个“很快”和“很晚”的临界点是什么?他有给出具体的里程碑吗?
国栋: 有的。他预测了两个关键节点,可以看作是他对前面两大瓶颈被解决的“乐观”预期。第一个是到2028年,AI能像一个称职的总经理一样,端到端地为一家小公司处理税务问题。这对应的就是“计算机使用”的难题。
苏哲: 明白了,那第二个呢?
国栋: 第二个是到2032年,AI能够像人类一样,轻松、自然、无缝且快速地在任何白领工作中学习。这对应的就是“持续学习”这个终极瓶颈。如果这两个都能实现,那AGI就真的离我们不远了。
苏哲: 这个预测背后的驱动力是什么?为什么他认为未来的发展会依赖这两个点的突破?
国栋: 因为过去十年AI的飞速进步,很大程度上是靠“大力出奇迹”——也就是训练用的计算能力每年翻好几倍。但作者明确指出,这种指数级的增长,受限于芯片、电力、甚至占GDP的比例,是不可能持续到2030年之后的。
苏哲: 所以,堆资源的时代要结束了?
国栋: 基本是这样。未来的进步,将越来越依赖于算法上的突破,而不是单纯的规模扩展。如果持续学习和计算机使用这些核心算法问题得不到解决,那就算我们有再多的算力,也堆不出一个真正的AGI。这就像你想造一辆更快的车,不能只想着无限扩大发动机,你还得在空气动力学、材料科学上取得突破。
苏哲: 我明白了。所以未来的关键,是从“大力出奇迹”转向“巧力出奇迹”。如果算法突破没能如期而至,那AGI的到来可能就真的要“晚得多”了。
国栋: 正是这个逻辑。所以,AGI的未来,不再仅仅是一场计算力的堆砌竞赛,更是一场关于算法和基础理论的深度较量。
苏哲: 好了,总结一下我们今天的讨论。首先,虽然现在的大语言模型看起来很神奇,但在实际的白领工作中,由于缺乏常识和可靠性这些“类人属性”,它们的表现还远远达不到预期。
国栋: 没错。而这背后的根本原因,是它们缺乏真正的“持续学习”能力。AI无法像人类一样从经验中有机地成长和适应,这让它很难从一个聪明的工具,进化成一个真正的智能体。
苏哲: 基于这两点,我们看到,通往AGI的道路并非一条平坦的直线。它的实现更像是一个“要么很快,要么很晚”的非线性过程,并且未来的进步,将越来越依赖于在持续学习、复杂任务自动化等领域的算法突破,而非单纯计算规模的扩展。这也解释了为什么很多人认为,AGI短期内难以出现,因为这些核心困境仍待解决。
国栋: 是的,未来的挑战,更多是在“质变”而非“量变”上。
苏哲: 我们对通用人工智能的期待,常常是基于对现有技术能力的线性外推,或是对科幻想象的浪漫化。然而,深入分析会发现,真正的智能远非简单的计算能力叠加。它涉及到经验的累积、情境的理解、以及更深层次的自我修正与适应。这不仅仅是AI技术发展的问题,更是一场对人类自身智能本质的再审视。或许,AGI的真正降临,不在于我们何时能制造出更强大的机器,而在于我们何时能真正理解,智能是如何从点滴经验中,编织出那个复杂而动态的、关于世界的意义网络。