原野: 嘿,最近我冲浪的时候看到个挺有意思的,说谷歌在搞大语言模型,竟然用上了“扩散模型”,听着像PS里把照片噪点磨皮变清晰那一套,这是啥新玩意儿?
晓曼: 没错,它叫 Gemini Diffusion,是谷歌第一个吃螃蟹的,把扩散思路搬到大语言模型里。你想啊,以前的模型,一个字一个字蹦,得“自回归”,特别死板。扩散模型呢,先糊你一脸马赛克,再一点点“去噪”,最后答案就出来了。
原野: 去噪?这不就像拼图,先把碎片弄得模模糊糊,再慢慢把边儿对齐?
晓曼: 哎哟,这比喻绝了!它厉害就厉害在,每一步都允许犯错、允许修正,比那种一条道走到黑的强多了。尤其像写代码、编辑公式这种,多了好多“后悔药”可以吃。
原野: 那速度呢?别最后马赛克来回折腾,效率更低了吧?
晓曼: 嘿,你可别小瞧它!实测能跑到每秒 857 个 tokens,几秒钟给你生成一个能交互的 HTML+JavaScript 页面。比谷歌自己之前的 Gemini 2.0 Flash-Lite 快了足足五倍!
原野: 嚯,这是坐火箭了吧?那跟市面上其他工具比,怎么样?
晓曼: 这么说吧,Cerebras Coder 用 2,000 tokens/s 跑 Llama3.1-70b,速度已经很猛了。Gemini Diffusion 呢,在差不多的性能下,用扩散模型的思路,把效率也拉上来了。
原野: 那这是要革 Transformer 的命吗?以后都用扩散模型了?
晓曼: 倒也不是。它没把 Transformer 结构给废了,只是把以前那种死板的“自回归”生成,换成了更灵活的“扩散式”。像 Mercury 这种模型,底层还是 Transformer,只是不搞因果掩码,让所有输入一次性过一遍,然后一起去噪。
原野: 听你这么一说,感觉以后编辑、互动型的应用会更流畅,没那么卡顿了?
晓曼: 那肯定的。你想想,你调试代码、改公式,以前的模型,你得把整段代码丢进去,让它一口气给你生成下一句,万一跑偏了,还得重来。现在这个扩散模型,就能在背后悄悄“对比前后”、“滚动修正”,流畅度和准确率双赢。
原野: 好家伙,那以后写技术博客或者在线 IDE 都能提速了!感谢你的分享,下次我再来挖点技术内幕。
晓曼: 没问题,下次咱们再聊点别的黑科技。