
DeepSeek V3.1-Terminus:Agent能力显著升级,R2呼之欲出
Listener_375629
1
9-26原野: 最近AI圈有个小更新,但背后信息量还挺大。DeepSeek发布了一个叫`DeepSeek-V3.1-Terminus`的模型。晓曼,我听说这次升级,首先解决了一个之前大家吐槽很多的“极”字Bug?
晓曼: 对,这个“极”字Bug确实挺有名的,老版本模型会毫无征兆地蹦出“极”、“極”或者英文的“extreme”,让人摸不着头脑。这次的`Terminus`版本把它彻底修复了。不过,这只是开胃菜,这次更新真正的重头戏,其实是在Agent智能体能力上的大幅增强。
原野: Agent智能体,听起来就是让AI变得更像一个能干活的助手,而不是只会聊天。
晓曼: 就是这个意思。你看它的几项关键数据就明白了。比如,衡量模型浏览网页执行任务能力的BrowseComp测试,提升了接近30%;还有一个测试命令行操作能力的Terminal-bench,也提升了超过17%。这直接说明,它在信息收集和任务执行这两项核心能力上,变得更强、更可靠了。
原野: 诶,等等,我看到数据里有个小细节。你说它浏览网页能力强了,但中文搜索那项,就是BrowseComp-zh,分数反而从49.2降到了45.0。这是怎么回事?难道是对中文用户不友好了?
晓曼: 嗯,这是个很有意思的点。我倒不觉得是“不友好”,这更像是一种技术上的“矫枉过正”。很可能是在解决之前中英文混杂输出的问题时,下手稍微重了一点,导致在纯中文搜索场景下出现暂时的性能回调。在AI模型优化里,这种为了一个更重要的全局目标,在某个局部做出的暂时牺牲其实很常见。
原野: 我明白了,是为了整体的Agent能力更稳定,而在单一语种上做了一点取舍。那除了Agent能力,它在传统的推理和编程测试上表现如何呢?
晓曼: 在传统的推理和编程方面,`V3.1-Terminus`的表现和上一代基本持平。但有一个测试特别亮眼,叫“人类最后一场测试”。
原野: 嚯,这名字听着就够唬人的。
晓曼: 哈哈,是。这个测试的核心是看模型在处理它训练数据范围之外的未知问题时的表现。在这项上,`Terminus`的得分从15.9暴涨到了21.7。这说明它的泛化能力,也就是我们常说的“举一反三”的能力,有了非常明显的改善。
原野: 有意思。不过我也注意到,它在“算法竞赛”那个Codeforces测评上的分数反而降了一点。
晓曼: 是的,从2091降到了2046。这可能只是正常的性能波动,但也可能暗示了DeepSeek在模型优化方向上的一个选择。就是说,在追求解决未知问题的创新能力和保证现有算法的稳定性之间,他们可能更倾向于前者。
原野: 这么说来,无论是泛化能力的提升,还是Agent能力的增强,感觉都在为一个更大的目标铺路。你觉不觉得`V3.1-Terminus`这个命名本身,就有点玄机?Terminus,是“终点”的意思。
晓曼: 你完全说到点子上了!一个迭代版本被命名为“终点”,这几乎是在明示:我们真正的下一代重磅产品就快来了。这和之前市场的传闻完全对得上。早在9月份,彭博社就爆料说DeepSeek正在开发一个代号叫“R2”的新模型,专门聚焦AI Agent功能,计划在今年第四季度发布。
原野: R2?听起来像科幻电影里的机器人代号。
晓曼: 没错。而且DeepSeek的战略意图非常清晰。从8月份发布`V3.1`时,官方就说那是“迈向Agent时代的第一步”,现在这个叫“终点”的`Terminus`版本,把Agent能力又往前推了一大截。这一切显然都是在为那个更强大的“R2”的登场做技术和市场预热。
原野: 看来AI Agent的时代真的离我们越来越近了。那说回现在,这个`V3.1-Terminus`,我们普通人能用上吗?
晓曼: 当然能。它现在已经在DeepSeek的官方客户端,就是网页版、小程序和App上都同步更新了。而且,最关键的一点是,它也延续了DeepSeek的传统,是全面开源的。开发者可以直接在Hugging Face上找到它。
原野: 好的,所以如果给这次DeepSeek的更新画个重点,你会怎么总结?
晓曼: 我觉得可以总结为几点:第一,它修复了恼人的Bug,同时核心是大幅提升了Agent智能体的能力,让它更会“干活”了。第二,模型的泛化能力,也就是“聪明程度”有显著增强。第三,也是最重要的,“Terminus”这个名字强烈暗示着一个更强大的Agent模型“R2”即将到来。最后,这个新模型现在已经全面上线并且开源了,大家都可以去体验。