Google Launches MTP Drafter for Gemma 4 Series AI Models, Boosting Inference Speed by Up to 3x

ITHome

IT之家

May 7, 2026, 02:43 AM

IT之家 5 月 7 日消息，谷歌于 5 月 5 日发布博文，宣布为 Gemma 4 系列 AI 模型，推出多 Token 预测（MTP）起草器，利用推测解码架构，推理速度最高可提升 3 倍。 Gemma 4 作为谷歌目前能力最强的开源模型，在发布仅数周内下载量已突破 6000 万次。此次推出的 MTP 起草器，目的是不降低输出质量或推理逻辑的前提下，突破推理效率的极限。 IT之家援引博文介绍，谷歌表示目前标准大语言模型推理通常受限于内存带宽，导致严重的延迟瓶颈。处理器需耗费大量时间将数十亿参数从显存传输至计算单元，造成了计算资源的利用率不足。而为了解决这个核心痛点，谷歌为 Gemma 4 系列大模型引入推测解码技术，配对重型目标模型（如 Gemma 4 31B）与轻量级起草器（MTP 模型）。起草器利用闲置算力，在短时间内预测多个未来 Token，目标模型随后并行验证这些令牌。若预测通过，模型可在单次前向传递中确认整个序列，大幅缩短生成时间。实测数据显示，在 Apple Silicon 芯片上，当 batch sizes 设置为 4 至 8 时，Gemma 4 26B 模型