NVIDIA LLM 新范式 TiDAR：Think in Diffusion, Talk in Autoregression

耀世娱乐介绍 点击次数：166 发布日期：2025-12-05 11:49

大家好！今天想和大家聊一篇来自NVIDIA的很有意思的新工作，它叫 TiDAR。这个名字很形象，是“Think in Diffusion, Talk in AutoRegression”的缩写，意思是“用扩散模型来思考，用自回归模型来表达”。这篇论文旨在解决一个困扰大型语言模型（LLM）已久的难题：如何在保证生成质量的同时，大幅提升推理速度。

论文标题: TiDAR: Think in Diffusion, Talk in Autoregression作者: Jingyu Liu, Xin Dong, Zhifan Ye, Rishabh Mehta, Yonggan Fu, Vartika Singh, Jan Kautz, Ce Zhang, Pavlo Molchanov等作者机构: NVIDIA, 芝加哥大学, 佐治亚理工学院论文地址: https://arxiv.org/pdf/2511.08923

目前，LLM的生成范式主要分为两派。一派是大家熟悉的自回归（Autoregressive, AR）模型，比如GPT系列。它们像我们说话一样，一个字一个字地往外蹦，逻辑严谨，质量很高，但缺点就是慢，因为每生成一个token都需要进行一次完整的模型前向计算，这在硬件上是典型的“内存受限”操作，GPU的大部分计算单元都在“摸鱼”。

另一派则是非自回归或并行解码模型，比如扩散语言模型（diffusion language models）。它们可以一次性生成多个token，速度潜力巨大，能更好地利用GPU的计算密度。但天下没有免费的午餐，并行生成牺牲了token之间的依赖关系，导致生成质量通常不如AR模型。

那么，有没有办法能让模型既“想”得快，又“说”得好呢？这就是TiDAR要解决的问题。它巧妙地将两种范式融合在了一个模型里，实现了速度与质量的兼得。论文数据显示，TiDAR能在几乎不损失质量的情况下，带来高达 4.71倍到5.91倍的token生成速度提升，并且是首个在质量上追平AR模型的并行解码架构。

TiDAR是如何工作的？

TiDAR的核心思想非常精妙：在一个模型、一次前向传播（forward pass）中，同时完成两件事——用扩散模式“思考”草稿，用自回归模式“确认”输出。

这听起来有点不可思议，但通过精心设计的注意力机制，TiDAR做到了。研究者们设计了一种特殊的结构化注意力掩码（structured attention masks），使得模型在处理序列时，不同部分能采用不同的注意力模式。

具体来说，在每一步生成中，输入序列被分为三部分：

前缀（Prefix）: 已经确认的上下文部分。草稿（Drafts）: 上一步生成的、待验证的候选tokens。预草稿（Pre-drafts）: 为下一步并行生成的新候选tokens。

模型在一次前向计算中：

自回归地“说” (Talk in Autoregression): 对于上一轮生成的“草稿”tokens，模型会以标准的因果注意力（causal attention）来计算它们作为正式输出的概率，然后通过拒绝采样（rejection sampling）来决定接受哪些tokens。这个过程保证了最终输出的质量，因为它遵循了AR模型的严谨逻辑。扩散式地“想” (Think in Diffusion): 与此同时，对于需要为下一轮准备的“预草稿”部分，模型采用块状双向注意力（block-wise bidirectional attention），并行地预测出多个候选tokens。这个过程就像扩散模型一样，一次性生成一个“想法”的雏形，效率极高。

这种设计的巧妙之处在于，它充分利用了现代GPU在处理少量token时存在的“免费计算区间”（free token slots）。如下图所示，当序列长度在一定范围内增加时，推理延迟几乎不变。TiDAR正是将并行思考（草稿生成）和串行表达（验证）打包在这一次计算中，把这部分“免费”的算力给用上了。

实验效果如何？

TiDAR的实验结果相当亮眼，可以说是实现了对现有并行解码方法（如普通扩散模型、推测解码）的超越。

效率与质量的权衡

研究者在1.5B和8B规模的模型上进行了广泛测试。如下图所示，横轴是相对AR模型的吞吐率（速度提升倍数），纵轴是各项任务的得分（质量）。

可以看到，TiDAR（图中星形和圆形标记）在各个模型尺寸下，都达到了一个非常优秀的“帕累托前沿”——即在相似的质量水平下，它的速度最快；在相似的速度水平下，它的质量最高。

对于1.5B模型，TiDAR实现了 4.71倍的吞吐量提升，同时在各项任务上与基线AR模型质量持平甚至略有超出。对于8B模型，更是达到了 5.91倍的惊人加速，而质量损失极小。

值得一提的是，TiDAR甚至超越了当前先进的推测解码方法（如EAGLE-3）。虽然推测解码能保证输出与原模型完全一致，但TiDAR凭借其更高的“单次有效token产出率”（T/NFE）和全并行设计，在实际吞吐量上更胜一筹。

生成任务表现

在代码生成（HumanEval, MBPP）和数学推理（GSM8K, Minerva Math）等生成任务上，TiDAR的表现同样出色。如下表所示，TiDAR 1.5B的性能全面看齐甚至超越了Qwen2.5 1.5B AR模型。而TiDAR 8B也与Qwen3 8B AR模型性能相当，远超同等规模的其他扩散模型（如LLaDA, Dream）。

消融实验的洞见

论文还通过消融实验证明了其核心设计的有效性。例如，实验证明TiDAR提出的并行草稿与采样机制，远优于传统的基于置信度的解码策略。

此外，一个有趣的设计是“完全掩码”（Full Mask）策略。在训练扩散部分时，TiDAR不提供任何“干净”的上下文提示，而是全部使用[mask]标记。这不仅减少了训练与推理的差异，还增强了扩散损失信号，从而显著提升了模型的效率和质量。

总结

总的来说，TiDAR通过一种新颖的序列级混合架构，成功地将扩散模型的并行“思考”能力与自回归模型的精确“表达”能力结合起来。它不仅在理论上优雅，更在实践中取得了惊人的效果，首次在保证AR级质量的同时，将LLM的生成速度提升了数倍。

这项工作为我们突破LLM推理瓶颈提供了一个全新的、极具潜力的方向。

大家对这个方法怎么看？你觉得它会成为未来LLM推理的主流范式吗？欢迎在评论区留下你的看法！

推荐资讯

上一篇：关节轴承斯凯孚GE4E轴承尺寸GE4C轴承GE5C轴承GE5E轴承GE6E轴承GE6C轴承GE10E轴承GE10C轴承GE12E轴承GE12C轴承GE15E轴承GE15C轴承SKF关节 下一篇：MICHAEL KORS MERCER女包怎么样？经典设计与实用兼具的优雅选择

耀世娱乐介绍