DeepSeek V3.1终极版上线性能提升36%

你的位置： 耀世娱乐 > 产品展示 >

产品展示 点击次数：138 发布日期：2025-10-09 05:47

刚看到消息的时候，我差点把手里的咖啡洒到键盘上——DeepSeek-V3.1-Terminus，终极版，直接上线了。

那种感觉就像你还在纠结昨天的Bug没修好，人家今天已经带着36%的成绩提升站在门口敲锣打鼓了。

更绝的是，这次官方很笃定地说：中英文混杂？

解决了；偶发字符乱入？

拜拜了您嘞；Code Agent、Search Agent都加满buff。

这不是普通升级，这是那种“熬夜改稿第二天老板夸你有灵魂”的爽感。

其实要是倒回一个月前，那场景真不算体面。

8月21日才刚推V3.1，就被网友抓包输出里莫名冒出个“极”字——甚至有人给它起外号叫“极你太美”，听起来像某综艺彩排事故，但对程序员来说简直是噩梦，你想写个time.Second，它偏要给你来个time.Se極，结构全毁。

当时我也试过，一半时间能复现，看得人牙痒痒。

现在好了，新版本怎么折腾都正常运行，那股子从泥潭爬出来的畅快你懂吧？

不过这次Terminus最让我眼睛一亮的，是它在人类最后考试（Humanity’s Last Exam）上的爆炸式进步——36.48%，这个数字，不只是漂亮，它意味着原本短板的一块板被钉牢，还顺便比Gemini 2.5 Pro多踩了一脚。

这事儿放到AI圈，就是那种隔壁同学期末考稳压年级第一，让老师忍不住拿来当范例讲的水平。

当然啦，我不会只看数据表格傻乐。

在Agent能力测试上，这次也是猛冲：BrowseComp从30飙到38.5，SimpleQA逼近97分，SWE-bench Verified和Multilingual都有抬头。

但神奇的是，并不是所有项目都涨，有几个指标小掉，比如Codeforces和Aider-Polyglot，好比运动员百米破纪录但跳远退步一点，你不能光喊完美，总得问一句这是策略性调整还是训练侧重变化。

我个人猜测，他们可能为了优化工具链调用做了一些取舍，因为Agent任务里，多线程思维和资源调度往往互相掣肘。

插一句背景故事，其实DeepSeek一直挺敢于自曝缺陷。

在R1阶段，他们就在Nature论文里承认语言混杂问题待解决，这跟很多厂商遮遮掩掩不同。

有时候这种坦白反而让社区信任度高，所以大家才会在论坛催更：“V4什么时候来？”

、“R2是不是年底见？”

这波Terminus发布，更像是在告诉我们：路还长，但车速够劲儿。

说到底，这款模型名字叫Terminus——终点，可谁不知道科技圈里的“终点”常常就是下一个起跑线？

尤其是AI大模型迭代周期越来越短，从8月到9月底，仅用一个月就完成跨越式更新，你很难不去联想年底所谓超级智能体。

如果真按梁文锋之前暗示的方向走，会自主学习、具备高级决策，那可不仅仅是聊天更聪明，而是可以自己规划执行复杂任务，到时候我们的交互方式可能彻底变样。

不过别忘了另一层现实——每一次技术飞跃背后，都伴随着使用习惯乃至社会接受度的磨合。

从早期大家抱怨语义理解不到位，到如今开始讨论Agent是否会替代部分岗位，中间夹着开发者喜悦、用户惊讶，还有监管部门默默翻法规草案。

这其中既有兴奋，也有隐忧，比如工具化能力越强，对安全边界要求也随之提高，否则新Bug可能不是在代码里，而是在应用场景中引爆。

所以，当我再次打开DeepSeek网页端，看着那个熟悉却又陌生的新版本标签时，会忍不住想：如果这一版真的如宣传般稳定、高效，我们距离下一场“大戏”还有多久？

或者说，我们准备好迎接它了吗？

你觉得呢，如果年底真的来了个能自主学习、自我优化的大型Agent，我们该先欢呼还是先立规矩？

留言聊聊，说不定你的观点，比任何一次基准测试结果都刺激人心。

推荐资讯

上一篇：JDG强势晋级！与iG争夺四号种子！厂长称BP要完爆对手！ 下一篇：梁思成痛哭北京城墙被拆，林徽因安慰：总有一天他们会后悔的