谷歌 Gemini Diffusion：速度飙升 5 倍，扩散模型颠覆 LLM

Gemini Diffusion：谷歌首个使用扩散模型的LLM
- 不同于传统的自回归语言模型逐字生成文本，Gemini Diffusion 通过逐步优化噪声来生成输出。
- 速度快，能在生成过程中快速迭代和纠错，擅长编辑任务，尤其是在数学和代码方面。
速度是关键
- 实测生成速度高达 857 tokens/秒，数秒内即可生成交互式HTML+JavaScript页面。
- 性能类似于 Cerebras Coder 工具，后者使用 Cerebras 以约 2,000 tokens/秒的速度运行 Llama3.1-70b。
性能
- 谷歌声称其性能与 Gemini 2.0 Flash-Lite 相当，但速度是其 5 倍。
技术细节
- 扩散模型并非取代Transformer，而是取代自回归。
- 像 Mercury 这样的扩散模型仍然使用 Transformer，但没有因果掩码，因此整个输入可以一次性处理。