刚看到消息的时候,我差点把手里的咖啡洒到键盘上——DeepSeek-V3.1-Terminus,终极版,直接上线了。
那种感觉就像你还在纠结昨天的Bug没修好,人家今天已经带着36%的成绩提升站在门口敲锣打鼓了。
更绝的是,这次官方很笃定地说:中英文混杂?
解决了;偶发字符乱入?
拜拜了您嘞;Code Agent、Search Agent都加满buff。
这不是普通升级,这是那种“熬夜改稿第二天老板夸你有灵魂”的爽感。
其实要是倒回一个月前,那场景真不算体面。
8月21日才刚推V3.1,就被网友抓包输出里莫名冒出个“极”字——甚至有人给它起外号叫“极你太美”,听起来像某综艺彩排事故,但对程序员来说简直是噩梦,你想写个time.Second,它偏要给你来个time.Se極,结构全毁。
当时我也试过,一半时间能复现,看得人牙痒痒。
现在好了,新版本怎么折腾都正常运行,那股子从泥潭爬出来的畅快你懂吧?
不过这次Terminus最让我眼睛一亮的,是它在人类最后考试(Humanity’s Last Exam)上的爆炸式进步——36.48%,这个数字,不只是漂亮,它意味着原本短板的一块板被钉牢,还顺便比Gemini 2.5 Pro多踩了一脚。
这事儿放到AI圈,就是那种隔壁同学期末考稳压年级第一,让老师忍不住拿来当范例讲的水平。
当然啦,我不会只看数据表格傻乐。
在Agent能力测试上,这次也是猛冲:BrowseComp从30飙到38.5,SimpleQA逼近97分,SWE-bench Verified和Multilingual都有抬头。
但神奇的是,并不是所有项目都涨,有几个指标小掉,比如Codeforces和Aider-Polyglot,好比运动员百米破纪录但跳远退步一点,你不能光喊完美,总得问一句这是策略性调整还是训练侧重变化。
我个人猜测,他们可能为了优化工具链调用做了一些取舍,因为Agent任务里,多线程思维和资源调度往往互相掣肘。
插一句背景故事,其实DeepSeek一直挺敢于自曝缺陷。
在R1阶段,他们就在Nature论文里承认语言混杂问题待解决,这跟很多厂商遮遮掩掩不同。
有时候这种坦白反而让社区信任度高,所以大家才会在论坛催更:“V4什么时候来?”
、“R2是不是年底见?”
这波Terminus发布,更像是在告诉我们:路还长,但车速够劲儿。
说到底,这款模型名字叫Terminus——终点,可谁不知道科技圈里的“终点”常常就是下一个起跑线?
尤其是AI大模型迭代周期越来越短,从8月到9月底,仅用一个月就完成跨越式更新,你很难不去联想年底所谓超级智能体。
如果真按梁文锋之前暗示的方向走,会自主学习、具备高级决策,那可不仅仅是聊天更聪明,而是可以自己规划执行复杂任务,到时候我们的交互方式可能彻底变样。
不过别忘了另一层现实——每一次技术飞跃背后,都伴随着使用习惯乃至社会接受度的磨合。
从早期大家抱怨语义理解不到位,到如今开始讨论Agent是否会替代部分岗位,中间夹着开发者喜悦、用户惊讶,还有监管部门默默翻法规草案。
这其中既有兴奋,也有隐忧,比如工具化能力越强,对安全边界要求也随之提高,否则新Bug可能不是在代码里,而是在应用场景中引爆。
所以,当我再次打开DeepSeek网页端,看着那个熟悉却又陌生的新版本标签时,会忍不住想:如果这一版真的如宣传般稳定、高效,我们距离下一场“大戏”还有多久?
或者说,我们准备好迎接它了吗?
你觉得呢,如果年底真的来了个能自主学习、自我优化的大型Agent,我们该先欢呼还是先立规矩?
留言聊聊,说不定你的观点,比任何一次基准测试结果都刺激人心。