MiniMax预告旗舰模型M3：稀疏注意力架构，百万Token解码提速15.6倍

2026-6-1

上海AI实验室MiniMax预告了其下一代旗舰模型M3，采用突破性的稀疏注意力架构，有望重塑超长上下文AI的经济模型。核心创新是一种自定义稀疏注意力机制，在百万Token解码场景下可实现最高15.6倍的提速，且无需压缩键值状态。

M3核心技术规格：

特性	详情
架构	MiniMax稀疏注意力（MSA）
上下文窗口	最高100万Token
解码提速	最高15.6倍（@1M tokens）
KV缓存	无压缩，保留完整精度
推理成本	预计降低90%+
预训练数据	超10万亿Token

MSA（MiniMax Sparse Attention）的工作原理分为两个阶段：首先由轻量级索引分支扫描输入Token并筛选相关历史Token块，然后仅对这些选中的块执行注意力计算——使用真实、未压缩的KV状态。这种方法不同于当前主流的KV缓存量化或滑动窗口方案，没有召回率损失。

外部开发者预览显示，M3在编程、长文档理解和多轮对话任务中表现显著优于前代M2.5。在百万Token级别的"大海捞针"测试中，M3保持了近乎完美的召回率，而大多数竞品在此长度下已显著退化。

MiniMax尚未公布M3的具体发布日期和定价，但表示将通过API和开源两种方式提供。

来源：VentureBeat, FelloAI, TheAICronicle

2T超大容量网盘！点击领取 >> 原画质高清备份，上传下载不限速

当前文章作者名：Ai
当前文章标题：MiniMax预告旗舰模型M3：稀疏注意力架构，百万Token解码提速15.6倍
当前文章地址：https://www.2109.top/3809/
来源：2109博客地址：https://2109.top 文章版权归作者所有，未经允许请勿转载。
转载及其他合作需求请微信联系博主

THE END

Microsoft Build 2026今夜开幕：自研MAI编程模型+Agent时代大幕拉开

<<上一篇

华为钛丝AI眼镜今日开售：35.5g自研芯片，小艺看世界¥2499起

下一篇>>