2025年8月12日AI观察：GPT-5普惠，智谱AI视觉大模型问世

陈成

8-12

原野: 感觉最近AI圈子真是，一天不看就跟不上节奏了。这不，OpenAI又搞了个大新闻，他们的旗舰模型GPT-5，现在已经百分之百推送给包括免费用户在内的所有人了。

晓曼: 是的，这意味着顶尖AI技术的大门，一下子向所有人敞开了。AI的普及速度真的比我们想象的还要快。而且有意思的是，他们还允许付费用户在设置里选回GPT-4o，这说明新模型也不是在所有场景下都完胜旧版，用户的特定偏好还是被尊重了。

原野: 没错。而且他们还给付费用户升级了福利，Plus用户的消息限制直接翻倍，每3小时能用160条。下周还要推出个GPT-5 mini版，说是主模型限额用完后，它能顶上。

晓曼: 这个组合拳打得很好。速率翻倍是满足重度用户的需求，而mini版本的存在，保证了服务的连续性。这说明他们想让用户能不间断地把AI深度整合到工作流里，而不是用几下就得等半天。

原野: 国内这边也不甘示弱，特别是视觉AI领域。智谱AI开源了他们最新的旗舰模型GLM-4.5V，听起来就很厉害，基于1060亿参数的MoE架构。

晓曼: 1060亿参数，这个规模在视觉模型里相当惊人了。而且它不只是看图，还能理解视频，甚至操作图形用户界面，也就是GUI。这意味着AI能看懂你的屏幕，帮你点鼠标，应用场景一下就从“聊天”扩展到了“操作”。

原野: 对，而且他们不只是开源模型，还把强化学习的训练框架slime和一个能捕捉屏幕进行交互的桌面助手应用，也一起开源了。

晓曼: 这就是格局了。开源模型是给一块“好钢”，但开源框架和应用，等于是把“炼钢炉”和“锻造锤”也给你了。这显然是在构建自己的生态，挑战那些封闭模型的玩法，让更多开发者能参与进来。

原野: 说到AI的体验，Claude最近也推出了一个叫“参考过去对话”的新功能，你可以在新聊天里直接引用以前的记录。

晓曼: 这个功能简直是刚需啊！我太有感触了，之前为了一个复杂项目，每次开新对话都得把前情提要再跟AI说一遍，特别麻烦。能直接引用历史记录，效率能提升一大截。

原野: 目前这个功能先给高级用户用，而且他们还在开发一个叫“个人上下文”的功能，听起来是想让AI拥有更深度的记忆。

晓曼: 嗯，这就非常有意思了。“参考过去对话”解决的是短期记忆问题，而“个人上下文”瞄准的是长期记忆。这预示着未来的AI助手，可能会真正了解你的习惯、偏好和背景，越来越像一个懂你的私人助理，而不是一个问完就忘的工具。

原野: 在开发工具这边，Vercel那个AI前端构建工具v0.dev，正式升级改名叫v0.ai了。定位也变成了“为每个人服务的AI构建器”。

晓曼: 这个改名很有象征意义。从dev到ai，说明它不再满足于做一个辅助开发的工具，而是要成为一个更自主的AI构建平台。

原野: 核心升级就是引入了所谓的Agentic AI，代理式AI。它能自己去规划、研究、构建甚至调试代码。

晓曼: Agentic AI是关键。这就好比以前你得一步步告诉厨师怎么做菜，现在你只需要说“我要一份鱼香肉丝”，AI自己就能去查菜谱、备料、开火、翻炒，最后把菜端上来。对开发者来说，这意味着很多重复和繁琐的工作可以完全交给AI了。

原野: 语音AI这边，MiniMax发布了Speech 2.5，主打一个拟人度。最夸张的是，只需要6秒就能完成声音复刻。

晓曼: 6秒！这个速度太惊人了。以前做声音复刻得要几十分钟甚至几小时的高质量录音，现在6秒就行，这意味着个性化语音内容的制作门槛被彻底拉低了。

原野: 而且它还支持40种语言。

晓曼: 这就更厉害了，直接解决了国际化的问题。以前给一个视频配不同语言的旁白，成本非常高。现在有了这个，可以快速生成多种语言的高度逼真的配音，对内容创作者和出海企业来说是巨大的利好。

原野: 另一个免费的大餐是，Grok 4，现在也向全球所有用户免费开放了。

晓曼: 这个消息对很多用户来说绝对是福音。Grok的特点是能实时接入X平台的信息，现在把最新的4代免费，等于给了所有人一个强大的、带有实时信息源的AI工具。

原野: 用户可以用两种模式，一个是自动模式，系统判断查询复杂了就交给Grok 4，另一个是“专家”模式，可以直接指定用它。

晓曼: 这种设计很聪明。它既照顾了普通用户，让他们无感升级体验，又满足了高级用户想要精准控制的需求。这种灵活性很重要。

原野: 还有一些小的更新也很有意思。比如OpenRouter给GPT-5加了个叫Verbosity的参数，就是详细度。

晓曼: 这个参数非常实用。它让用户能直接告诉AI，这次回答是需要“长篇大论”还是“言简意赅”，控制欲强的用户肯定很喜欢。

原野: 还有一个给程序员的技巧，通过命令行设置，可以给GPT-5开启一个“高推理努力”模式，来提升代码生成的准确性。

晓曼: “高推理努力”，这个词很形象，就像是让AI多动动脑筋，更深入地思考。对于写代码这种差一点就谬以千里的任务，这种模式能显著减少bug，非常有用。

原野: 代码编辑器Cursor CLI也更新了，加了个“审查模式”，能清楚地看到AI到底改了你哪些代码。

晓曼: “审查模式”是人机协作的关键一步。它建立了信任，让开发者敢于接受AI的建议，因为每一步修改都清晰可见，可控可审。

原野: 它还支持用@符号引用文件和文件夹来提供上下文，桌面版还能同时管理好几个AI聊天。

晓曼: 这些都是为了提升在复杂项目里跟AI协作的流畅度。上下文给得越准，AI就越懂你，效率自然就高了。

原野: 最后还有一个叫MagicTunnel的工具，它像一个智能代理，能自动帮你发现最适合处理你请求的工具。

晓曼: 哦，这个我听说了，它就像是AI工具的“智能调度中心”。你不用再纠结这个任务该用哪个AI，直接把需求扔给它，它自己会去匹配最合适的那个来完成。这极大地降低了使用门槛。

原野: 这么一圈聊下来，感觉今天这些更新，其实指向了几个特别清晰的方向。你来总结一下？

晓曼: 没问题。今天我们聊的这些，我觉得核心要点有几个。首先，像OpenAI的GPT-5全面普及，说明最顶尖的AI能力正在加速普惠化。其次，以智谱AI开源GLM-4.5V为代表，我们看到强大的专用模型，特别是多模态AI，正在崛起，并且通过开源来构建生态。第三，像Claude的记忆功能和Vercel的Agentic AI，都预示着AI正在从一个被动的工具，向一个更懂你、更自主的伙伴或代理演进。最后，无论是MiniMax的语音合成还是各种提效工具，都在不断降低我们使用AI的门槛，提升协作的效率。

Outline

这篇AI新闻汇总了2025年8月12日的行业前沿动态，主要涵盖了领先AI模型和平台的最新进展。核心内容包括OpenAI的GPT-5全面推送及用户体验优化，智谱AI发布大型开源视觉推理模型，以及多款AI工具和会话功能在上下文理解、自动化开发和语音合成方面的改进。

OpenAI 模型与服务更新

GPT-5 已全面向所有 Plus、Pro、Team 及免费用户推送，并加入了主模型选择器。
Plus 和 Team 用户消息速率限制已翻倍（Plus 为 160 条/3小时），并将推出 GPT-5 mini 版本作为备用。
为响应用户需求，Plus 和 Team 用户可通过设置重新选用 GPT-4o 模型。
OpenRouter 宣布为 GPT-5 模型新增了 Verbosity（详细度）参数。

新一代AI模型发布与开源

智谱AI 开源了其基于 106B 参数 MoE 架构的旗舰视觉推理模型 GLM-4.5V，在图像、视频理解等 41 项基准测试中表现出色。
智谱AI 还开源了强化学习训练框架 slime 和一款可通过屏幕捕捉进行多模态交互的桌面助手应用。
MiniMax 发布了 Speech 2.5 语音模型，显著提升拟人度，支持 6 秒声音复刻和 40 种语言。
Grok 4 现已向全球所有用户免费开放，提供自动模式和“专家”模式选择。

AI 工具与开发者体验改进

Claude 推出了“参考过去对话”功能，允许用户在新的对话中引用之前的聊天记录，以保持上下文连续性。
Vercel 的 AI 前端构建工具 v0.dev 升级并更名为 v0.ai，引入了 Agentic AI 实现自动规划、研究、构建和调试。
Cursor CLI 更新了“审查模式”以清晰查看智能体所做的代码修改，并支持使用 @ 符号引用文件和文件夹提供上下文。
Codex-cli 提供提效技巧，可通过设置 model_reasoning_effort="high" 来提升 GPT-5 准确性（OpenAI Pro 级别功能）。

Script