GPT-5实战：驾驭代理智能，提升编码效率

Zhouzhou He

8-8

原野: 最近关于微软 GPT-5 的消息满天飞，都说它特别强大。但感觉就像我们拿到了一辆性能炸裂的跑车，光知道它快还不行，关键是怎么才能驾驭好它，让它在我们想转弯的时候转弯，想停的时候停下。

晓曼: 这个比喻太贴切了。GPT-5 的确是这样，它在代理任务、编码这些方面的能力是飞跃性的。但它有个特点，默认状态下有点像个“过度热情”的实习生，为了给你最完美的答案，会把所有资料都翻个底朝天。

原野: 哈哈，过度热情。这确实会拖慢速度。那我们能怎么管管它这个“热情”呢？

晓曼: 这就是它的精妙之处。我们可以通过调整一个叫 `reasoning_effort` 的参数，或者是在提示词里下达更明确的指令，来控制它的“代理热情”。需要速度的时候就让它收敛点，需要深度探索的时候就让它放开手脚。

原野: 这种“代理热情”的控制，听起来像是给 AI 的“主动性”装了一个可调节的阀门。比如，我只想快速要个八九不离十的答案，就可以把 `reasoning_effort` 调低，或者干脆在提示词里说“尽快给答案，不完全准确也行”，让它变得更“务实”。

晓曼: 完全正确。反过来，如果是个复杂问题，比如修复一个深层 bug，我们就可以鼓励它“持续探索，直到问题彻底解决”，甚至告诉它，遇到不确定时，先按最合理的方案试试，别停下来问我。这就让 AI 的应用场景一下灵活了很多。

原野: 确实，这种精细的控制能力是 GPT-5 的一个重要亮点。那么，除了这种“热情”的调整，它在与外部工具交互时，又有哪些值得关注的优化呢？

晓曼: 它在工具调用上也有大升级。一个特别有意思的功能叫“工具前导语”。简单说，就是模型在调用任何工具之前，会先给你一份详细的“行动计划书”，并且实时汇报进展。

原野: 哦？这个好。以前用一些AI工具，它执行任务的时候就像个黑盒子，你根本不知道它在干嘛，只能干等着。现在等于说，它会一边干活一边跟你说，“老板，我正准备第一步，计划是这样的……”

晓曼: 就是这个意思，整个过程变得非常透明，让人能信任它。而且从技术层面讲，它还推出了一个新的 Responses API，如果能把上一次的推理信息，也就是那个 `previous_response_id` 传给它，性能还能再提升一大截，既省钱又高效。

原野: 这种透明度对于复杂任务尤其重要。那么，在具体的编码领域，GPT-5 又有哪些突破性的表现和针对性的优化建议呢？

晓曼: 编码绝对是它的主场。它现在能处理非常大的代码库，修复 bug，甚至从零开始帮你写一个完整的应用。而且它还有自己的“品味”，会推荐用像 Next.js、Tailwind CSS 这类比较现代的技术栈。

原野: 这就很实用了。那有没有具体的例子，比如怎么把它调得更好用？

晓曼: 当然有。比如那个很火的 AI 代码编辑器 Cursor，他们就分享了经验。他们通过精细调整系统提示词，成功地让 GPT-5 生成的代码更清晰、可读性更高，同时也增强了它的自主性，避免了啰里啰嗦的无效沟通。

原野: 这种将模型能力与实际工作流程深度结合的例子非常鼓舞人心。最后，我们来谈谈 GPT-5 在遵循指令方面的精密度，以及如何避免一些常见的“坑”。

晓曼: 这一点非常关键。GPT-5 遵循指令的能力极高，你说一，它绝不说二。但这也成了一把双刃剑。

原野: 哦？你是说，如果我的指令本身写得不好，有矛盾或者模糊的地方，它就会很“纠结”？

晓曼: 对！它会耗费大量的算力去尝试理解和协调你指令里的矛盾，而不是像以前的模型那样随便猜一个方向。所以，给 GPT-5 的指令必须清晰、没有冲突。另外，它还推出了一个叫“最小化推理”的模式。

原野: 听名字像是“省着点用”模式？

晓曼: 可以这么理解。这是它最快的推理选项，响应速度极快，特别适合那些对延迟要求高的场景。但这就像开手动挡的赛车，性能强，但也更考验“车手”的技术，需要你提供非常精炼和准确的提示词才能发挥出最大威力。

原野: 我明白了。所以说，无论是控制它的工作热情，还是优化交互体验，或者是提升编码效率，核心都在于我们如何与它进行高质量的沟通。

晓曼: 说得太好了。总结一下，今天我们聊的 GPT-5，核心就是四个方面。第一，它能力很强，但我们可以通过 `reasoning_effort` 和提示词来精细控制它的“代理热情”。第二，“工具前导语”和 Responses API 让它在执行任务时更透明、更高效。第三，它在编码领域表现卓越，通过像 Cursor 那样的精细调优，能成为真正的生产力工具。最后，它的高指令遵循能力要求我们必须提供清晰无误的指令，而“最小化推理”模式则为追求速度的场景提供了新的选择。可以说，要真正驾驭好 GPT-5 这头猛兽，提升我们的编码效率，关键就在于这种精细化的控制和沟通。

大纲

GPT-5 是 OpenAI 最新的旗舰模型，在代理任务性能、编码、原始智能和可控性方面实现了显著飞跃。本指南旨在通过提供一系列提示技巧和最佳实践，帮助用户最大化模型输出质量，并深入探讨如何控制模型的代理行为、优化编码能力，以及有效利用其高级API功能。

GPT-5 的核心能力与优化指南

关键进步领域：GPT-5 在代理任务性能、编码、原始智能和可控性方面实现了实质性飞跃。
指南目的：提供提示技巧，以最大化模型输出质量，这些技巧源于模型训练和实际应用经验。
核心关注点：涵盖改进代理任务性能、确保指令遵循、利用新的API功能以及优化前端和软件工程任务的编码。

代理行为控制与策略

校准代理主动性：GPT-5 可以在高层决策与处理定义明确的任务之间灵活调整其主动性。
降低模型主动性：
- 调整 reasoning_effort 参数至较低水平，以提高效率和降低延迟。
- 在提示中明确定义模型探索问题空间的标准，减少不必要的探索。
- 设置明确的工具调用预算，并提供“逃生舱口”允许模型在不确定情况下继续。
增加模型主动性：
- 提高 reasoning_effort 参数，以鼓励模型自主性、工具调用持久性，并减少澄清性提问。
- 在提示中明确说明代理任务的停止条件，以及何时可以返回给用户。

编码能力与前端开发

全面的编码能力：GPT-5 擅长在大型代码库中修复错误、处理大型差异、实现多文件重构及从零开始开发新应用（包括前端和后端）。
前端应用开发优化：
- 推荐使用特定框架和库组合（如 Next.js、React、Tailwind CSS、shadcn/ui）以充分发挥其前端能力。
- 通过提示模型迭代执行自建的“卓越标准”（如通过 <self_reflection> 提示词），可以提高“零到一”应用生成的质量。
代码库设计标准匹配：通过提示提供工程原则、目录结构和最佳实践摘要，引导模型生成符合现有代码库风格的代码。

API 参数、指令遵循与元提示

API 参数控制：
- reasoning_effort：控制模型思考的深入程度和工具调用意愿（默认 medium）。
- verbosity：新引入的API参数，影响模型最终回答的长度，并支持自然语言的局部覆盖。
- Responses API：强烈推荐用于代理流程，可显著提升性能、降低成本，并通过 previous_response_id 重用推理上下文。
指令遵循的挑战：GPT-5 能精准遵循指令，但矛盾或模糊的指令会因模型试图调和冲突而降低性能。
元提示应用：用户可利用 GPT-5 作为元提示器，通过询问模型如何修改提示来更一致地实现预期行为或避免非预期行为。

脚本