
“用7纳米落后工艺打爆5纳米芯片! ” 这个在芯片行业被笑了十年的梗,上周被华为在上海世界人工智能大会上砸了个稀碎。
384块国产昇腾910B芯片拼成的怪兽集群,算力飚到300P,老黄家的5纳米H100只能干瞪眼。更狠的是,现场工程师掏出温度计往机柜上一贴——30摄氏度,比你家正在刷剧的MacBook还凉快。
华为怎么做到的? 秘诀就俩字:拆台。 把芯片之间传话要经过的“CPU领导”直接裁掉,让384块芯片点对点直接唠嗑。
原先英伟达卡群里发个指令,要先递交给CPU审批,再排队等分配,折腾半天算力全耗在跑手续上。
华为这套操作直接把带宽干到269TB/s,比英伟达明星产品NVL72快一倍多。 现场跑大模型训练时,监控屏幕上本该波浪翻滚的Loss曲线,居然画出了近乎笔直的心电图。
“以前训练千亿参数模型要累死累活爬三个月珠峰,现在四十多天就登顶了。 ”蹲在展台搞测试的工程师说得轻松。
这速度背后藏着细节:同样是跑通义千问大模型,传统集群得调教数百张卡才能勉强吃饱,华为集群里单张昇腾卡就能扛起一个专家节点,几百个节点同时开动,连等红灯的时间都省了。
钱才是最戳人心的。 当第三方把价目表甩出来时,投资人的眼珠子都快粘在屏幕上了:华为整套384卡集群报价4000万人民币。
隔壁英伟达呢? 光买H100的钱就能掏空半个钱包,还得配百万级的DPU加速卡、智能网卡和许可证,里外里比华为贵出三分之一。 这笔账算下来,相当于白赚三套上海内环的学区房。
有人嘴硬:“国产卡连光模块都不好买! ”华为当场拆开机箱打脸。 密密麻麻的线路确实看得人头皮发麻,但压根没塞高端光模块——全靠自研的MatrixLink技术拿铜线硬连接。
这招直接掐断了海外供应链卡脖子的可能性,还让机器故障率暴跌到万分之零点几。“我们仓库里堆着九千万行Python代码,还以为这辈子都跑不上国产卡了。 ”
某AI公司CTO在展台边上抽烟,语气有点恍惚。 结果技术团队拿着昇腾开发套件一测,90%的PyTorch脚本改改库文件就能直接跑。
连大模型接口的价格都开始跳水,原先画张图收三块钱的AI平台,悄悄改成三百块包年套餐。英伟达肯定坐不住。
黄仁勋连夜在海外放风,说下一代NVSwitch带宽要翻倍。 可业内码农群马上有人泼冷水:“排队审批制换八车道的马路,前面卡着盖章的公务员有屁用?”
华为彻底砸碎了这个排队体系。 当昇腾卡群用200纳秒完成芯片间对话时(这速度等于千分之一眨眼工夫),英伟达卡还在2微秒的审批流程里打转——哪怕带宽翻十倍都追不上这个时间差。
温度计继续在机箱上显示着30℃的绿色数字。 比起传统机房需要穿棉袄的低温环境,这套能塞进普通写字楼的液冷集群,正把“内存爆满! 带宽堵车! ”的焦虑蒸发在夏日的热浪里。 算力荒漠时代,真的结束了。