
2025年8月12日AI观察:GPT-5普惠,智谱AI视觉大模型问世
陈成
7
8-12原野: 感觉最近AI圈子真是,一天不看就跟不上节奏了。这不,OpenAI又搞了个大新闻,他们的旗舰模型GPT-5,现在已经百分之百推送给包括免费用户在内的所有人了。
晓曼: 是的,这意味着顶尖AI技术的大门,一下子向所有人敞开了。AI的普及速度真的比我们想象的还要快。而且有意思的是,他们还允许付费用户在设置里选回GPT-4o,这说明新模型也不是在所有场景下都完胜旧版,用户的特定偏好还是被尊重了。
原野: 没错。而且他们还给付费用户升级了福利,Plus用户的消息限制直接翻倍,每3小时能用160条。下周还要推出个GPT-5 mini版,说是主模型限额用完后,它能顶上。
晓曼: 这个组合拳打得很好。速率翻倍是满足重度用户的需求,而mini版本的存在,保证了服务的连续性。这说明他们想让用户能不间断地把AI深度整合到工作流里,而不是用几下就得等半天。
原野: 国内这边也不甘示弱,特别是视觉AI领域。智谱AI开源了他们最新的旗舰模型GLM-4.5V,听起来就很厉害,基于1060亿参数的MoE架构。
晓曼: 1060亿参数,这个规模在视觉模型里相当惊人了。而且它不只是看图,还能理解视频,甚至操作图形用户界面,也就是GUI。这意味着AI能看懂你的屏幕,帮你点鼠标,应用场景一下就从“聊天”扩展到了“操作”。
原野: 对,而且他们不只是开源模型,还把强化学习的训练框架slime和一个能捕捉屏幕进行交互的桌面助手应用,也一起开源了。
晓曼: 这就是格局了。开源模型是给一块“好钢”,但开源框架和应用,等于是把“炼钢炉”和“锻造锤”也给你了。这显然是在构建自己的生态,挑战那些封闭模型的玩法,让更多开发者能参与进来。
原野: 说到AI的体验,Claude最近也推出了一个叫“参考过去对话”的新功能,你可以在新聊天里直接引用以前的记录。
晓曼: 这个功能简直是刚需啊!我太有感触了,之前为了一个复杂项目,每次开新对话都得把前情提要再跟AI说一遍,特别麻烦。能直接引用历史记录,效率能提升一大截。
原野: 目前这个功能先给高级用户用,而且他们还在开发一个叫“个人上下文”的功能,听起来是想让AI拥有更深度的记忆。
晓曼: 嗯,这就非常有意思了。“参考过去对话”解决的是短期记忆问题,而“个人上下文”瞄准的是长期记忆。这预示着未来的AI助手,可能会真正了解你的习惯、偏好和背景,越来越像一个懂你的私人助理,而不是一个问完就忘的工具。
原野: 在开发工具这边,Vercel那个AI前端构建工具v0.dev,正式升级改名叫v0.ai了。定位也变成了“为每个人服务的AI构建器”。
晓曼: 这个改名很有象征意义。从dev到ai,说明它不再满足于做一个辅助开发的工具,而是要成为一个更自主的AI构建平台。
原野: 核心升级就是引入了所谓的Agentic AI,代理式AI。它能自己去规划、研究、构建甚至调试代码。
晓曼: Agentic AI是关键。这就好比以前你得一步步告诉厨师怎么做菜,现在你只需要说“我要一份鱼香肉丝”,AI自己就能去查菜谱、备料、开火、翻炒,最后把菜端上来。对开发者来说,这意味着很多重复和繁琐的工作可以完全交给AI了。
原野: 语音AI这边,MiniMax发布了Speech 2.5,主打一个拟人度。最夸张的是,只需要6秒就能完成声音复刻。
晓曼: 6秒!这个速度太惊人了。以前做声音复刻得要几十分钟甚至几小时的高质量录音,现在6秒就行,这意味着个性化语音内容的制作门槛被彻底拉低了。
原野: 而且它还支持40种语言。
晓曼: 这就更厉害了,直接解决了国际化的问题。以前给一个视频配不同语言的旁白,成本非常高。现在有了这个,可以快速生成多种语言的高度逼真的配音,对内容创作者和出海企业来说是巨大的利好。
原野: 另一个免费的大餐是,Grok 4,现在也向全球所有用户免费开放了。
晓曼: 这个消息对很多用户来说绝对是福音。Grok的特点是能实时接入X平台的信息,现在把最新的4代免费,等于给了所有人一个强大的、带有实时信息源的AI工具。
原野: 用户可以用两种模式,一个是自动模式,系统判断查询复杂了就交给Grok 4,另一个是“专家”模式,可以直接指定用它。
晓曼: 这种设计很聪明。它既照顾了普通用户,让他们无感升级体验,又满足了高级用户想要精准控制的需求。这种灵活性很重要。
原野: 还有一些小的更新也很有意思。比如OpenRouter给GPT-5加了个叫Verbosity的参数,就是详细度。
晓曼: 这个参数非常实用。它让用户能直接告诉AI,这次回答是需要“长篇大论”还是“言简意赅”,控制欲强的用户肯定很喜欢。
原野: 还有一个给程序员的技巧,通过命令行设置,可以给GPT-5开启一个“高推理努力”模式,来提升代码生成的准确性。
晓曼: “高推理努力”,这个词很形象,就像是让AI多动动脑筋,更深入地思考。对于写代码这种差一点就谬以千里的任务,这种模式能显著减少bug,非常有用。
原野: 代码编辑器Cursor CLI也更新了,加了个“审查模式”,能清楚地看到AI到底改了你哪些代码。
晓曼: “审查模式”是人机协作的关键一步。它建立了信任,让开发者敢于接受AI的建议,因为每一步修改都清晰可见,可控可审。
原野: 它还支持用@符号引用文件和文件夹来提供上下文,桌面版还能同时管理好几个AI聊天。
晓曼: 这些都是为了提升在复杂项目里跟AI协作的流畅度。上下文给得越准,AI就越懂你,效率自然就高了。
原野: 最后还有一个叫MagicTunnel的工具,它像一个智能代理,能自动帮你发现最适合处理你请求的工具。
晓曼: 哦,这个我听说了,它就像是AI工具的“智能调度中心”。你不用再纠结这个任务该用哪个AI,直接把需求扔给它,它自己会去匹配最合适的那个来完成。这极大地降低了使用门槛。
原野: 这么一圈聊下来,感觉今天这些更新,其实指向了几个特别清晰的方向。你来总结一下?
晓曼: 没问题。今天我们聊的这些,我觉得核心要点有几个。首先,像OpenAI的GPT-5全面普及,说明最顶尖的AI能力正在加速普惠化。其次,以智谱AI开源GLM-4.5V为代表,我们看到强大的专用模型,特别是多模态AI,正在崛起,并且通过开源来构建生态。第三,像Claude的记忆功能和Vercel的Agentic AI,都预示着AI正在从一个被动的工具,向一个更懂你、更自主的伙伴或代理演进。最后,无论是MiniMax的语音合成还是各种提效工具,都在不断降低我们使用AI的门槛,提升协作的效率。