
AGI House看硅谷:OpenAI DevDay后的Agent工具链创业潮
Ying Li (Candy)
0
10-18原野: 我们先从最近的一个大事件说起吧。你可能也关注了,前阵子OpenAI办了个开发者日,发布了一堆和AI智能体,也就是Agent相关的新东西,比如AgentKit,还有所谓的Apps in ChatGPT。很多人说,这是OpenAI又一次想把ChatGPT打造成AI时代的操作系统。
晓曼: 没错,这个动作非常关键。AgentKit的发布,感觉就像是OpenAI把自己内部修炼Agent的“一身武功”给开放出来了。而Apps in ChatGPT和Apps SDK,更是毫不掩饰地暴露了它的巨大野心:它不想只做一个提供模型的公司,它想成为那个定义规则的“操作系统”,掌控整个AI应用生态的底层架构。这和去年大家玩的GPTs那种简单的插件模式,已经是完全两码事了。
原野: 哦?“操作系统”这个词听起来野心确实不小。你这么一说,它和之前GPTs的区别就清晰多了。那从一个开发者的角度看,这种更深度的集成会带来什么不一样的东西?是机会更多了,还是说,压力也更大了?
晓曼: 嗯,这是个好问题,其实是机会和压力并存。机会显而易见,开发者可以站在OpenAI这个巨人的肩膀上,利用它现成的强大模型和工具链,快速地去构建各种复杂的AI应用,门槛大大降低了。但压力也随之而来,这就是我们常说的“在别人的地基上盖房子”。
原野: 我明白了,就是你的生死存亡,很大程度上被平台方拿捏了。他们一调整规则,或者自己下场做了某个功能,你可能就白忙活了。
晓曼: 正是这个意思。你的创新和商业模式都得在它划定的框架里玩。这就带来了一个很有意思的张力。而且,行业里还有一种批评的声音,认为OpenAI现在搞的这个Agentic Kit,有点走偏了。
原野: 哦?怎么说?
晓曼: 这个嘛,一些人认为,真正的通用人工智能,也就是AGI,应该是追求更自主、更通用的智能。但现在这个Agentic Kit,看起来更像是一个超级强大的“工具调用器”,它把大模型变成了一个能熟练使用各种软件接口的“高级助理”,而不是一个真正能自主思考的智能体。所以,这到底是通往AGI的必经之路,还是一种更实用的商业化妥协,其实是有争议的。
原野: 有点意思。这听起来像是一个关于AI发展路径的哲学问题了。看来OpenAI的这一步棋,确实是把整个“Agentic Tooling”,也就是智能体工具链这个领域,推到了风口浪尖。不过要理解这些新工具为什么这么重要,我们可能得先聊聊,这个听起来有点专业的“Agentic Tooling”到底是什么?
晓曼: 对,这个概念是理解这一切的基础。简单来说,Agentic Tooling就是一套能让AI像人一样使用工具的技术。它让AI不再只是一个会聊天、会写作的“大脑”,而是真正拥有了能和外部世界互动的“手”和“脚”。
原野: “手”和“脚”这个比喻很形象。就是说,AI可以通过这些工具去订机票、查天气、操作软件,干一些实际的事情了。
晓曼: 完全正确。这个领域最近为什么这么火,甚至出现了好几笔重要的收购,就是因为市场看到了AI从“信息处理”向“任务执行”跃迁的巨大潜力。这标志着AI应用正在从简单的问答,进化到能完成需要多个步骤协作的复杂任务。这背后的商业价值是惊人的。
原野: 我看到资料里还提到,Agentic Tooling的进化,和模型能力的提升是同步的,甚至可以分成“六次进化”。这听起来有点像生物进化史。你能不能用一个具体的例子解释下,这种“同步进化”是怎么发生的?
晓曼: 这个比喻很贴切。它们确实是相互促进的。比如,最早的模型可能只能理解简单的文本指令。那对应的工具链,就只能做一些简单的API调用。后来,模型的推理能力和规划能力提升了,它能理解“先做A,再做B,如果遇到C就做D”这种复杂逻辑了。这时候,Agentic Tooling就能支持更复杂的多步骤任务流了。再到现在,模型有了多模态能力,能看懂图片、听懂语音,那工具链就能去调用图片编辑软件、语音合成工具。你看,每一次底层模型能力的飞跃,都直接为上层的工具生态解锁了一片全新的天地。
原野: 我明白了,就像大脑越聪明,手脚能干的活儿就越精细、越复杂。那在这个大的进化框架下,现在最热门、大家都在啃的硬骨头是哪些环节?原文提到了工具调用、记忆和语音这几个方向。我们先从“工具调用”说起吧,我看到一个很专业的词,MCP协议,这是什么东西?
晓曼: MCP协议,你可以把它理解成一套“普通话”,一套让大模型能“看懂”并且“操作”成千上万种外部工具的标准化说明书。而MCP Server,就是把这些五花八门的工具和数据,按照这套“普通话”标准,打包成一个个AI可以直接取用的“工具箱”。
原野: 所以,就是有了统一的标准,AI调用工具的效率就高多了。
晓曼: 是的。这里面最有趣的是,像Anthropic这种提出协议的大公司,它自己不太可能把全世界所有的工具都打包成MCP Server。这就给第三方公司留下了巨大的机会。比如一家叫Composio的公司,他们专门做这个,成了一个MCP Server的“市场”,让开发者可以在上面挑选各种现成的“工具箱”。
原野: 等一下,这我就有点好奇了。为什么像Anthropic这种顶尖的AI公司,反而不自己把这块肥肉全吃了,要留给第三方呢?它自己做不是更有优势吗?
晓曼: 这个战略考量很深。首先,做这种集成工作非常繁琐,需要对接海量的应用,工作量巨大。对于Anthropic这样的公司,他们的核心优势和战略焦点是打磨最顶尖的底层模型,而不是去做无穷无尽的集成。其次,开放给第三方,可以更快地建立一个繁荣的生态。大家都来帮你添砖加瓦,这个生态才能迅速壮大。这比自己闭门造车要快得多。
原野: 原来是这样,把生态做大比自己独吞更重要。那我们再看看“记忆”这个环节。如果没有记忆,AI就像金鱼一样,聊完就忘。原文里把记忆分成了四种:情景、流程、事实和人格。这四种记忆分别扮演什么角色?
晓曼: 这个划分很关键。情景记忆,就像我们聊天,它记得我们上一句说了什么。流程记忆,是它学会了如何一步步完成一个任务,比如预订一个会议室。事实知识记忆,就是它读过的所有资料,像一个巨大的图书馆。最后的人格记忆,是它通过和你的互动,了解了你的偏好、说话风格,从而形成一种独特的个性。这四种记忆组合起来,才构成了一个真正有经验、有个性的智能体。
原野: 所以也出现了像Letta这样,专门给AI做“外挂记忆”的公司。
晓曼: 对,这说明“记忆”本身已经可以成为一个独立的、非常重要的创业方向。如何高效地存储、检索和更新这些记忆,让AI不会得“遗忘症”,是一个很大的技术挑战,也是一个巨大的商业机会。
原野: 最后一个是语音。我看到数据说,现在语音交互变得越来越重要,甚至连911报警平台都在用AI语音。但我们平时用语音助手,还是会觉得有点傻,反应慢。你觉得现在的语音技术,主要的瓶颈在哪?
晓曼: 瓶颈主要在实时性和自然度上。一方面,要做到像人一样无缝对话,延迟必须非常非常低。另一方面,要让AI的声音听起来有情感、有停顿、有自然的语调变化,而不是一个冰冷的机器音,这也很难。LiveKit的数据显示,所谓的“端到端”语音模型和传统的“级联”模型现在各占一半,就说明大家还在探索最好的技术路径。如何在追求极致的自然度和实时性的同时,又能保证用户的隐私和数据安全,这是目前所有玩家,包括OpenAI在内,都在努力平衡的难题。
原野: 工具调用、记忆、语音,这些核心能力不断突破,确实在勾勒一个全新的市场蓝图。原文提到了一个非常惊人的数字,说这是一个可能达到2000到5000亿美金的市场,甚至说像Okta、Twilio、DataDog这些大家熟悉的公司,都可以在AI时代“再做一遍”。这个“再做一遍”要怎么理解?
晓曼: 这个理解是,Agentic Tooling会把这些我们现在习以为常的企业服务,用AI的逻辑从根本上重构一遍。举个例子,Twilio是做通信API的,以前是你的App需要发短信时,你去调用它。在AI时代,可能是一个AI Agent在分析完数据后,自主决定需要和客户沟通,然后主动调用Twilio去发短信,甚至打电话。
原野: 我明白了。也就是说,这些服务从一个被动调用的“工具”,变成了一个主动工作的“智能体”的一部分。
晓曼: 完全正确。Okta做身份认证,未来Agent也需要身份去访问各种系统;DataDog做系统监控,未来Agent可能需要实时读取系统状态来做决策。这都不是简单的功能优化,而是一种范式转移。这种重构会释放出巨大的新价值,所以才会有这么高的市场估值。
原野: 这种巨大的市场重构,自然也吸引了全球的创业者。我注意到原文特别提到了一个现象,就是预计2025年,“闯美”的中国AI创业公司会变多,而且说他们带来了“不一样的野心”。你觉得这种“不一样的野心”具体是指什么?
晓曼: 这很有意思。相比硅谷本土的创业文化,中国的创业者往往带着一种对产品打磨、市场迭代速度和商业化落地的极致追求。他们可能更擅长快速试错,更贴近用户需求去做精细化的产品设计。这种“野心”体现在,他们不只是想做一个技术很酷的东西,而是想做一个能快速占领市场、被大规模使用的产品。
原野: 那他们在美国市场会面临哪些独特的挑战呢?
晓曼: 挑战也很明显。首先是文化和市场的差异,对本地用户需求的理解需要一个过程。其次,美国的监管环境、法律体系和人才竞争,都和国内很不一样。如何在巨头林立的硅谷,利用自己快速执行和产品迭代的优势,同时又能很好地融入本地生态,这是所有“闯美”创业者都需要面对的核心课题。
原野: 听下来,Agentic Tooling确实不只是一个技术新词,它更像是一场正在发生的、席卷全球的商业变革。我们今天从OpenAI的开发者日聊起,深入到了Agentic Tooling的进化、核心能力,以及它所带来的万亿级市场重构。
晓曼: 是这样。总结一下的话,首先,Agentic Tooling是AI从单纯的“感知”世界,走向真正“行动”和改变世界的关键桥梁。它正在把AI生态推向一个平台化、操作系统化的新阶段。
原野: 嗯,对。其次,我们聊到的工具调用、长期记忆、自然语音交互这些核心能力的构建,已经成了现在技术竞争和创业创新的主战场。谁能在这些点上取得突破,谁就能定义下一代智能体的能力边界。
晓曼: 最后一点,这场技术变革正在重塑一个数千亿美金的传统企业服务市场,预示着一个由AI驱动的全新效率时代的到来。这也吸引了像中国创业者这样的全球玩家,带着各自的独特优势,共同加入到这场新的全球竞争格局里。
原野: AI智能体的崛起,正将我们带入一个前所未有的“智能涌现”时代。当机器不仅能理解世界,更能自主行动、学习和协作时,人类与技术的关系将如何重新定义?我们是会迎来一个效率极致提升的乌托邦,还是在无形中让渡了更多的自主权?这场由Agentic Tooling驱动的进化,最终指向的,或许是人类如何与一个拥有“意志”和“记忆”的机器共存的深刻哲学命题,以及我们如何在技术洪流中把握自身命运的时代叩问。