
AI Agent 发展:定义、要素与未来方向
Apr 28
FromLong Text
FromLong Text
Agent 核心要点总结
Agent 是基于环境反馈使用工具的模型程序,依赖底层模型能力和 Context 构建。工具使用方案多样,未来 Agent 长期垂直化。AI Coding 辅助,RL 赋能,与 Workflow 共存。意图识别和 Context 互相关联,信任问题是关键。Sheet0 强调数据分析,激励信号设计重要,发展取决于模型和工程突破。
- Agent 的定义:让模型基于环境反馈去使用工具的一个程序。
- 这波 Agent 热与之前不同:底层模型能力(RL)、Agent 工程和产品侧突破(Context 构建)使其更有实际价值。
- Context:大模型执行任务所需的各种信息总和。Agent 的 Context 来源是自动化的,无需人工干预。
- Tool Use 方案:
- 函数接口类:Function Call (OpenAI)、MCP (统一标准)、A2A (Google,争议较大)。
- 模拟人类操作类:Computer Use, Browser Use (结合视觉识别/RPA)。
- 两者不互斥,可结合。Browser Use 通过 GUI 交互,纯视觉方案不成熟,常需 MCP 包装 API。
- 国内 Open API 较少,模拟人类方式可能更依赖。AI Coding 可以提高准确率,降低幻觉。
- Browser Use 的价值:营造“可信的氛围感”,让用户直观看到 Agent 执行过程。
- Agent 会走向通用还是垂直?文锋认为将长期处于垂直 Agent 时代。
- AI Coding 和 Agent:AI Coding 是 Agent 的有力工具,但效率较低且难以协同复用,Agent 更倾向优先使用现有工具,找不到再用 AI Coding。
- RL 和 Agent 的关系:Agent 源于 RL。理解 Agent 需理解 RL 的三个要素:状态(Context)、行动(Tool Use)、激励信号(反馈)。创业公司需构建好的“环境”:清晰状态、行动空间、结果定义(激励信号)。
- Workflow 和 Agent:长期共存。Workflow (人类驱动) 稳定可靠但死板,适合日常 80% 任务。Agent (AI 驱动) 泛化灵活但不确定性高,适合 20% 开放探索任务。
- Agent 的重要交互入口:“Chat” 提供用户自由度。
- 意图识别和 Context:互为依赖。Context 越多,意图越准;理解意图后,需更多 Context 完成任务。模型应能判断 Context 是否充分并主动获取。
- System Prompt:辅助模型表现,垂直领域更有效。
- Google 的优势:海量用户点击数据,未来可用于意图识别构建 Context。
- Agent 开发者需解决的信任问题:
- 信任大模型能力,避免退回 Rule-based。
- 通过产品设计(如展示推理过程)让用户信任 Agent 结果。
- Sheet0:数据 Agent,自动化数据收集、处理、基于数据行动(如抓取 YC 公司信息并建联),准确率 100%。通过预先搭建小工具模块(复用)和引入 AI Coding 提高准确性。
- Sheet0 与其他 Agent 区别:交付结果不同。Sheet0 是表格 Agent,侧重“定量分析”,解决对精确度有要求的场景。其他多为 Coding Agent 或调研 Agent(交付报告)。
- 未来 Agent 发展预测:取决于模型能力和 Context 工程的突破。
- 判断 Agent 公司好坏的问题:是否理解 RL(Mindset)、如何设计激励信号(评估结果好坏)。
- Sheet0 的激励信号:AI 生成的表格数据是否为空,AI Coding 生成的脚本能否成功运行。