大家好!今天想和大家聊一篇来自NVIDIA的很有意思的新工作,它叫 TiDAR。这个名字很形象,是“Think in Diffusion, Talk in AutoRegression”的缩写,意思是“用扩散模型来思考,用自回归模型来表达”。这篇论文旨在解决一个困扰大型语言模型(LLM)已久的难题:如何在保证生成质量的同时,大幅提升推理速度。
论文标题: TiDAR: Think in Diffusion, Talk in Autoregression作者: Jingyu Liu, Xin Dong, Zhifan Ye, Rishabh Mehta, Yonggan Fu, Vartika Singh, Jan Kautz, Ce Zhang, Pavlo Molchanov等作者机构: NVIDIA, 芝加哥大学, 佐治亚理工学院论文地址: https://arxiv.org/pdf/2511.08923
目前,LLM的生成范式主要分为两派。一派是大家熟悉的自回归(Autoregressive, AR)模型,比如GPT系列。它们像我们说话一样,一个字一个字地往外蹦,逻辑严谨,质量很高,但缺点就是慢,因为每生成一个token都需要进行一次完整的模型前向计算,这在硬件上是典型的“内存受限”操作,GPU的大部分计算单元都在“摸鱼”。
另一派则是非自回归或并行解码模型,比如扩散语言模型(diffusion language models)。它们可以一次性生成多个token,速度潜力巨大,能更好地利用GPU的计算密度。但天下没有免费的午餐,并行生成牺牲了token之间的依赖关系,导致生成质量通常不如AR模型。
那么,有没有办法能让模型既“想”得快,又“说”得好呢?这就是TiDAR要解决的问题。它巧妙地将两种范式融合在了一个模型里,实现了速度与质量的兼得。论文数据显示,TiDAR能在几乎不损失质量的情况下,带来高达 4.71倍到5.91倍 的token生成速度提升,并且是首个在质量上追平AR模型的并行解码架构。
TiDAR是如何工作的?
TiDAR的核心思想非常精妙:在一个模型、一次前向传播(forward pass)中,同时完成两件事——用扩散模式“思考”草稿,用自回归模式“确认”输出。
这听起来有点不可思议,但通过精心设计的注意力机制,TiDAR做到了。研究者们设计了一种特殊的结构化注意力掩码(structured attention masks),使得模型在处理序列时,不同部分能采用不同的注意力模式。
具体来说,在每一步生成中,输入序列被分为三部分:
前缀(Prefix): 已经确认的上下文部分。草稿(Drafts): 上一步生成的、待验证的候选tokens。预草稿(Pre-drafts): 为下一步并行生成的新候选tokens。
模型在一次前向计算中:
自回归地“说” (Talk in Autoregression): 对于上一轮生成的“草稿”tokens,模型会以标准的因果注意力(causal attention)来计算它们作为正式输出的概率,然后通过拒绝采样(rejection sampling)来决定接受哪些tokens。这个过程保证了最终输出的质量,因为它遵循了AR模型的严谨逻辑。扩散式地“想” (Think in Diffusion): 与此同时,对于需要为下一轮准备的“预草稿”部分,模型采用块状双向注意力(block-wise bidirectional attention),并行地预测出多个候选tokens。这个过程就像扩散模型一样,一次性生成一个“想法”的雏形,效率极高。
这种设计的巧妙之处在于,它充分利用了现代GPU在处理少量token时存在的“免费计算区间”(free token slots)。如下图所示,当序列长度在一定范围内增加时,推理延迟几乎不变。TiDAR正是将并行思考(草稿生成)和串行表达(验证)打包在这一次计算中,把这部分“免费”的算力给用上了。
实验效果如何?
TiDAR的实验结果相当亮眼,可以说是实现了对现有并行解码方法(如普通扩散模型、推测解码)的超越。
效率与质量的权衡
研究者在1.5B和8B规模的模型上进行了广泛测试。如下图所示,横轴是相对AR模型的吞吐率(速度提升倍数),纵轴是各项任务的得分(质量)。
可以看到,TiDAR(图中星形和圆形标记)在各个模型尺寸下,都达到了一个非常优秀的“帕累托前沿”——即在相似的质量水平下,它的速度最快;在相似的速度水平下,它的质量最高。
对于1.5B模型,TiDAR实现了 4.71倍 的吞吐量提升,同时在各项任务上与基线AR模型质量持平甚至略有超出。对于8B模型,更是达到了 5.91倍 的惊人加速,而质量损失极小。
值得一提的是,TiDAR甚至超越了当前先进的推测解码方法(如EAGLE-3)。虽然推测解码能保证输出与原模型完全一致,但TiDAR凭借其更高的“单次有效token产出率”(T/NFE)和全并行设计,在实际吞吐量上更胜一筹。
生成任务表现
在代码生成(HumanEval, MBPP)和数学推理(GSM8K, Minerva Math)等生成任务上,TiDAR的表现同样出色。如下表所示,TiDAR 1.5B的性能全面看齐甚至超越了Qwen2.5 1.5B AR模型。而TiDAR 8B也与Qwen3 8B AR模型性能相当,远超同等规模的其他扩散模型(如LLaDA, Dream)。
消融实验的洞见
论文还通过消融实验证明了其核心设计的有效性。例如,实验证明TiDAR提出的并行草稿与采样机制,远优于传统的基于置信度的解码策略。
此外,一个有趣的设计是“完全掩码”(Full Mask)策略。在训练扩散部分时,TiDAR不提供任何“干净”的上下文提示,而是全部使用[mask]标记。这不仅减少了训练与推理的差异,还增强了扩散损失信号,从而显著提升了模型的效率和质量。
总结
总的来说,TiDAR通过一种新颖的序列级混合架构,成功地将扩散模型的并行“思考”能力与自回归模型的精确“表达”能力结合起来。它不仅在理论上优雅,更在实践中取得了惊人的效果,首次在保证AR级质量的同时,将LLM的生成速度提升了数倍。
这项工作为我们突破LLM推理瓶颈提供了一个全新的、极具潜力的方向。
大家对这个方法怎么看?你觉得它会成为未来LLM推理的主流范式吗?欢迎在评论区留下你的看法!