耀世娱乐

热线电话:
耀世娱乐
热门搜索:
你的位置: 耀世娱乐 > 产品展示 >

DeepSeek V3.1终极版上线性能提升36%

产品展示 点击次数:138 发布日期:2025-10-09 05:47

刚看到消息的时候,我差点把手里的咖啡洒到键盘上——DeepSeek-V3.1-Terminus,终极版,直接上线了。

那种感觉就像你还在纠结昨天的Bug没修好,人家今天已经带着36%的成绩提升站在门口敲锣打鼓了。

更绝的是,这次官方很笃定地说:中英文混杂?

解决了;偶发字符乱入?

拜拜了您嘞;Code Agent、Search Agent都加满buff。

这不是普通升级,这是那种“熬夜改稿第二天老板夸你有灵魂”的爽感。

其实要是倒回一个月前,那场景真不算体面。

8月21日才刚推V3.1,就被网友抓包输出里莫名冒出个“极”字——甚至有人给它起外号叫“极你太美”,听起来像某综艺彩排事故,但对程序员来说简直是噩梦,你想写个time.Second,它偏要给你来个time.Se極,结构全毁。

当时我也试过,一半时间能复现,看得人牙痒痒。

现在好了,新版本怎么折腾都正常运行,那股子从泥潭爬出来的畅快你懂吧?

不过这次Terminus最让我眼睛一亮的,是它在人类最后考试(Humanity’s Last Exam)上的爆炸式进步——36.48%,这个数字,不只是漂亮,它意味着原本短板的一块板被钉牢,还顺便比Gemini 2.5 Pro多踩了一脚。

这事儿放到AI圈,就是那种隔壁同学期末考稳压年级第一,让老师忍不住拿来当范例讲的水平。

当然啦,我不会只看数据表格傻乐。

在Agent能力测试上,这次也是猛冲:BrowseComp从30飙到38.5,SimpleQA逼近97分,SWE-bench Verified和Multilingual都有抬头。

但神奇的是,并不是所有项目都涨,有几个指标小掉,比如Codeforces和Aider-Polyglot,好比运动员百米破纪录但跳远退步一点,你不能光喊完美,总得问一句这是策略性调整还是训练侧重变化。

我个人猜测,他们可能为了优化工具链调用做了一些取舍,因为Agent任务里,多线程思维和资源调度往往互相掣肘。

插一句背景故事,其实DeepSeek一直挺敢于自曝缺陷。

在R1阶段,他们就在Nature论文里承认语言混杂问题待解决,这跟很多厂商遮遮掩掩不同。

有时候这种坦白反而让社区信任度高,所以大家才会在论坛催更:“V4什么时候来?”

、“R2是不是年底见?”

这波Terminus发布,更像是在告诉我们:路还长,但车速够劲儿。

说到底,这款模型名字叫Terminus——终点,可谁不知道科技圈里的“终点”常常就是下一个起跑线?

尤其是AI大模型迭代周期越来越短,从8月到9月底,仅用一个月就完成跨越式更新,你很难不去联想年底所谓超级智能体。

如果真按梁文锋之前暗示的方向走,会自主学习、具备高级决策,那可不仅仅是聊天更聪明,而是可以自己规划执行复杂任务,到时候我们的交互方式可能彻底变样。

不过别忘了另一层现实——每一次技术飞跃背后,都伴随着使用习惯乃至社会接受度的磨合。

从早期大家抱怨语义理解不到位,到如今开始讨论Agent是否会替代部分岗位,中间夹着开发者喜悦、用户惊讶,还有监管部门默默翻法规草案。

这其中既有兴奋,也有隐忧,比如工具化能力越强,对安全边界要求也随之提高,否则新Bug可能不是在代码里,而是在应用场景中引爆。

所以,当我再次打开DeepSeek网页端,看着那个熟悉却又陌生的新版本标签时,会忍不住想:如果这一版真的如宣传般稳定、高效,我们距离下一场“大戏”还有多久?

或者说,我们准备好迎接它了吗?

你觉得呢,如果年底真的来了个能自主学习、自我优化的大型Agent,我们该先欢呼还是先立规矩?

留言聊聊,说不定你的观点,比任何一次基准测试结果都刺激人心。

产品展示