ListenHub

4-28

晓曼: 哎，最近“AI Agent”这个词儿是火得一塌糊涂，感觉隔两天就冒出来一个新的。所以今天咱就来好好聊聊这个“AI Agent 发展：定义、要素与未来方向”。先给我这种小白扫个盲呗，现在这波 Agent，跟以前那些机器人啊、自动化程序啥的，到底有啥本质上的区别？

原野: 嗯，要我说啊，以前那些顶多算“小弟”，现在的 Agent 才是真“大哥”。简单来说，以前的程序是 “你叫它干嘛，它干嘛”，现在的 Agent 是能根据周围情况，自己决定用什么工具、怎么干活。

晓曼: 自己决定？听着有点玄乎。这个周围情况是啥意思？比如说，我让它订个机票，它还得自己查天气、看我行程表啊？

原野: 差不多这意思！你说的这个“周围情况”，在咱们行内叫做“Context”。你可以把它想象成，你要给大模型提供的信息，像你开派对前要准备的各种材料清单——谁来、吃啥、放啥音乐等等。以前这些都得人来准备，现在厉害的 Agent 能自己去收集整理。这就像它能自己去翻你的日历、查你的饮食偏好一样。是不是省事多了？

晓曼: 哇，这真是方便！那我又好奇了，如果让 Agent 用这些工具，它有什么诀窍吗？

原野: 这就得说到 Agent 调用工具的“套路”了，这行里大致分两种方法：一种是“精准打击”，就像 OpenAI 的 Function Call、Google 的 A2A，直接调用函数接口，告诉程序“你要干啥”。

晓曼: 另一种呢？不会是让它自己对着屏幕“瞎点”吧？

原野: 你还真说对了！另一种就是“模拟人工”，像 Browser Use 这种，用视觉识别和 RPA 技术，模拟人去点击、输入。想想，让一个AI自己上网购物、填表格，是不是特有意思?

晓曼: 听着像搭积木！用接口积木加上模拟人机操作积木。那你说未来的 Agent 会越来越厉害，变成什么都能干的“万能神器”吗？

原野: 我倒觉得，未来更可能是“专科大夫”的时代。就像医生一样，不会靠一个万能“听诊器”解决所有病症，而是需要不同的专科大夫来干不同的活。

晓曼: 也就是说，以后会有专门订机票的 Agent，专门点外卖的 Agent？细分到这种程度？

原野: Exactly! 特定场景，特定Agent，才能把事情做的更好更有效率。

晓曼: 哎呦，今天跟你一聊，感觉对 Agent 这玩意儿终于有点谱了。从定义到未来的发展方向，你这解释的真是门儿清！感谢感谢！

原野: 甭客气，能帮到你就好。希望以后大家提到 AI Agent，也能有个更清晰的认识。

大纲

Agent 的定义：让模型基于环境反馈去使用工具的一个程序。
这波 Agent 热与之前不同：底层模型能力（RL）、Agent 工程和产品侧突破（Context 构建）使其更有实际价值。
Context：大模型执行任务所需的各种信息总和。Agent 的 Context 来源是自动化的，无需人工干预。
Tool Use 方案：
- 函数接口类：Function Call (OpenAI)、MCP (统一标准)、A2A (Google，争议较大)。
- 模拟人类操作类：Computer Use, Browser Use (结合视觉识别/RPA)。
- 两者不互斥，可结合。Browser Use 通过 GUI 交互，纯视觉方案不成熟，常需 MCP 包装 API。
- 国内 Open API 较少，模拟人类方式可能更依赖。AI Coding 可以提高准确率，降低幻觉。
Browser Use 的价值：营造“可信的氛围感”，让用户直观看到 Agent 执行过程。
Agent 会走向通用还是垂直？文锋认为将长期处于垂直 Agent 时代。
AI Coding 和 Agent：AI Coding 是 Agent 的有力工具，但效率较低且难以协同复用，Agent 更倾向优先使用现有工具，找不到再用 AI Coding。
RL 和 Agent 的关系：Agent 源于 RL。理解 Agent 需理解 RL 的三个要素：状态（Context）、行动（Tool Use）、激励信号（反馈）。创业公司需构建好的“环境”：清晰状态、行动空间、结果定义（激励信号）。
Workflow 和 Agent：长期共存。Workflow (人类驱动) 稳定可靠但死板，适合日常 80% 任务。Agent (AI 驱动) 泛化灵活但不确定性高，适合 20% 开放探索任务。
Agent 的重要交互入口：“Chat” 提供用户自由度。
意图识别和 Context：互为依赖。Context 越多，意图越准；理解意图后，需更多 Context 完成任务。模型应能判断 Context 是否充分并主动获取。
System Prompt：辅助模型表现，垂直领域更有效。
Google 的优势：海量用户点击数据，未来可用于意图识别构建 Context。
Agent 开发者需解决的信任问题：
- 信任大模型能力，避免退回 Rule-based。
- 通过产品设计（如展示推理过程）让用户信任 Agent 结果。
Sheet0：数据 Agent，自动化数据收集、处理、基于数据行动（如抓取 YC 公司信息并建联），准确率 100%。通过预先搭建小工具模块（复用）和引入 AI Coding 提高准确性。
Sheet0 与其他 Agent 区别：交付结果不同。Sheet0 是表格 Agent，侧重“定量分析”，解决对精确度有要求的场景。其他多为 Coding Agent 或调研 Agent（交付报告）。
未来 Agent 发展预测：取决于模型能力和 Context 工程的突破。
判断 Agent 公司好坏的问题：是否理解 RL（Mindset）、如何设计激励信号（评估结果好坏）。
Sheet0 的激励信号：AI 生成的表格数据是否为空，AI Coding 生成的脚本能否成功运行。

脚本