Google Launches MTP Drafter for Gemma 4 Series AI Models, Boosting Inference Speed by Up to 3x
ITHome
IT之家
IT之家 5 月 7 日消息,谷歌于 5 月 5 日发布博文,宣布为 Gemma 4 系列 AI 模型,推出多 Token 预测(MTP)起草器,利用推测解码架构,推理速度最高可提升 3 倍。 Gemma 4 作为谷歌目前能力最强的开源模型,在发布仅数周内下载量已突破 6000 万次。此次推出的 MTP 起草器,目的是不降低输出质量或推理逻辑的前提下,突破推理效率的极限。 IT之家援引博文介绍,谷歌表示目前标准大语言模型推理通常受限于内存带宽,导致严重的延迟瓶颈。处理器需耗费大量时间将数十亿参数从显存传输至计算单元,造成了计算资源的利用率不足。 而为了解决这个核心痛点,谷歌为 Gemma 4 系列大模型引入推测解码技术,配对重型目标模型(如 Gemma 4 31B)与轻量级起草器(MTP 模型)。 起草器利用闲置算力,在短时间内预测多个未来 Token,目标模型随后并行验证这些令牌。若预测通过,模型可在单次前向传递中确认整个序列,大幅缩短生成时间。 实测数据显示,在 Apple Silicon 芯片上,当 batch sizes 设置为 4 至 8 时,Gemma 4 26B 模型
