MiniMax M3发布百万上下文原生多模态？国产旗舰首次三项兼备

openinstall运营团队｜

2026-06-01｜ look

164

MiniMax M3以MSA稀疏注意力架构首破编码Agent、百万上下文、原生多模态三项壁垒，国产旗舰首次跻身全球第一梯队，开发者与增长团队需重新审视长程归因与端侧协同策略。

MiniMax M3三项能力兼备封面，3D菱形logo三流汇聚与归因链路重构全景

MiniMax M3发布百万上下文原生多模态？这场国产大模型对全球第一梯队的正面突围已在评测榜单上得到确凿印证，6月1日稀宇科技正式上线M3模型，BrowseComp以83.5分超越Claude Opus 4.7的79.3，SWE-Bench Pro 59.0%压过GPT-5.5和Gemini 3.1 Pro直逼Opus 4.7。当百万上下文成为长程Agent的基础设施，原生多模态不再是外挂插件而是从第零步开始的训练范式，深度链接与归因链路在超长上下文场景中正面临全新挑战。

MiniMax M3发布百万上下文原生多模态

MSA架构：稀疏注意力如何把百万上下文成本打下来

M3的核心底座是全自研的MiniMax Sparse Attention（MSA）架构。传统Transformer架构有一个致命魔咒：上下文每增长10倍，计算量暴增100倍——O(n²)复杂度让百万级上下文在工程上几乎不可行。MSA的解法是"学霸划重点"：通过索引分支一秒锁定核心内容，再用稀疏计算分支集中处理关键信息，跳过大量无关Token的注意力计算。

实测数据有多夸张？在100万上下文规模下，M3单Token计算量仅为上一代模型的约1/20，预填充阶段加速超9.7倍，解码阶段加速超15.6倍。这意味着企业处理百万级长文档时，底层算力成本直接暴降90%以上。MiniMax还在底层推理算子层面重新设计了数据读取与计算路径，相关性能较主流开源方案提升4倍以上。这两个维度的叠加优化，让百万上下文从"实验室指标"变成了"生产级可用"。

MSA稀疏注意力算力成本坍缩路径，3D管线展示从二次方爆炸到1/20的演化

编码与Agent能力：直接可交付，不是"能跑但需要人改"

M3在编码与智能体评测中达到行业顶尖水平，官方直接给出了一个极具攻击性的定位——"写出的代码目标是直接可交付，而不是能跑但需要人改"。这不是空话，有硬核实测支撑。

在SWE-Bench Pro上，M3得分59.0%，超过GPT-5.5和Gemini 3.1 Pro，接近Opus 4.7。在SVG-Bench上，M3甚至超越了Opus 4.7。在面向自主Agent的端到端评测Claw-Eval上，M3拿到最高分。在多模态测试集OmniDocBench上，M3得分超过Gemini 3.1 Pro。

最能说明问题的是两个极限测试。第一个：MiniMax官方丢给M3一篇ICLR 2025杰出论文——Learning Dynamics of LLM Finetuning，要求它独立复现核心实验。M3连续运行近12小时，全程自主产出18次commit与23张实验图表，成功跑通核心实验。多模态看懂论文里的图表公式，长上下文保证论文+代码+实验日志一次性进窗口，编程+Agent能力驱动长线程执行——三项能力在此刻形成了闭环。

18次commit与23张实验图表

第二个：给M3四个只完成预训练的Base模型，要求12小时内自主完成数据合成、训练、评测、迭代全流程，全程无人干预。M3最终得分37.1，位列第三，仅次于Opus 4.7（42.4）和GPT-5.5（39.3）。更硬核的是另一个24小时无参考代码的连续运行测试——M3调用工具近2000次，将Hopper架构上FP8矩阵乘法的硬件利用率从7.6%提升到了71.3%，并自主调度模型完成了PostTrainBench上"数据-训练-迭代"全流程。

原生多模态：从第零步开始的训练范式重构

M3的关键突破在于"原生多模态"——这不是后期拼接视觉编码器的"伪多模态"，而是从训练起点便采用文本、图片、视频等多模态混合训练。MiniMax在报告中强调，Interleaved Data（交错数据）——文本和图像等其他模态在序列中交替自然排列的数据——对模型性能带来的提升，比一般认为的更加关键。

为此，MiniMax重构了整套数据管线，将预训练数据规模扩充至百T量级。百T级交错数据+从Step 0开始的多模态训练，使文本和视觉语义空间高度对齐——M3不仅支持图像与视频理解，也具备桌面操作能力，可在复杂跨应用环境中执行Computer Use任务。这是国内首个将多模态作为核心原生能力而非附加功能的旗舰模型。

将预训练数据规模扩充至百 T 量级

在编程与Agent训练中，M3还创新引入了交互式用户模拟器框架——通过模拟真实开发者在协作过程中的行为模式，让模型在训练和评测阶段就接触到更接近生产环境的交互场景，而非仅在静态代码片段上训练。

定价与商业化：五折开局的Token Plan与老用户迁移阵痛

M3提供两个API版本：M3和M3-highspeed，结果完全一致但后者速度更快。全面支持自动Cache，无需设置自动生效。价格方面，上下文≤512K的API上线7天限时五折：输入标准版2.1元/百万Tokens，优先版3.15元/百万Tokens；输出标准版8.4元/百万Tokens，优先版12.6元/百万Tokens；缓存读取标准版0.42元/百万Tokens。这一价格定位在国产旗舰中属于激进路线，与DeepSeek的低价策略形成直接竞争。

五折开局的Token Plan与老用户迁移阵痛

订阅方面，Token Plan升级为基于积分的用量扣减，三档公开：Plus版49元/月（6亿Token）、Max版119元/月（18亿Token）、Ultra版469元/月（55亿Token）。核心变化是从按固定次数扣减调整为按实际资源消耗折算积分——简单任务消耗更少，复杂任务按真实使用量扣减。

Token Plan升级为基于积分的用量扣减

但老用户迁移并不平滑。从Coding Plan切换到Token Plan后，重度老用户普遍反映"成本直接翻倍"、"被背刺"。MiniMax为此推出迁移适应补偿：部分老套餐用户会获得一次性补偿积分，但补偿积分有独立有效期。模型权重及技术报告将于10天内在HuggingFace和GitHub上完成开源，支持私有集群部署和微调——这对企业级用户是真正的吸引力。

百万上下文时代：长程归因链路的重构挑战

当M3将上下文窗口推到100万Tokens，意味着一份完整的技术文档、一个大型代码仓库、一段完整的用户行为日志可以一次性送入模型。这对Agent场景是革命性的——长程任务不再因为上下文截断而丢失关键信息。但对归因体系而言，百万上下文带来了全新的链路挑战。

超长上下文中的归因信息断裂

传统归因依赖UTM参数在页面跳转间逐级传递，但在百万上下文的Agent长线程中，一次对话可能横跨数十次工具调用、多轮搜索和跨应用操作。每一步调用的来源参数极易在长链路中被覆盖或丢失。通过携带参数安装将来源参数写入本地，再由深度链接在每次工具调用的返回路径上将上下文无缝传递，即可在Agent执行完长线程后完整还原每一步的归因链路，实现"百万Token窗口内归因参数不中断"。

长程Agent的跨端归因穿透

当M3驱动的Agent在12小时内自主完成论文复现或代码迭代，整个过程可能跨越浏览器、IDE、终端等多个应用环境。传统最后点击归因在这里完全失效——因为整个过程是Agent自主驱动的，用户只在起点输入了指令。通过全渠道归因的S2S端云协同，在服务端建立Agent调用链与原始用户意图的关联图谱，将Agent长线程中的每一步工具调用与初始触发意图确权对账，实现"长程执行中归因不模糊"。

Agent长线程归因穿透管线，暗场荧光粒子流五节点架构

端侧AI与归因链路的深层焦虑

M3的百万上下文和原生多模态能力，正在加速一个趋势：Agent从"被动响应"走向"自主长线程执行"。当用户只说一句话，Agent就跑12小时完成整个任务，传统的"页面→点击→转化"漏斗在Agent场景中根本不存在。

对开发者而言，当用户行为从"多次短交互"变成"一次长指令+Agent自主执行"，前端埋点体系需要从"页面事件驱动"转向"工具调用链驱动"。对增长团队而言，当ROI计算不再基于"每次点击成本"而是"每次Agent任务完成成本"，预算分配逻辑需要从"买流量"转向"买意图触达"。

openinstall目前的能力聚焦于App归因与深度链接场景，对Agent长线程归因的覆盖尚在探索阶段。本文所述长程归因穿透策略为前瞻性分析，具体实现需等待行业基础设施成熟。

开发团队与增长团队在Agent时代的协作重构

Agent长线程场景下，开发团队需要搭建"工具调用级"的参数传递底座——从Agent每次工具调用的入参和返回值中提取归因信号，建立调用链与用户意图的关联索引。增长团队则需要从"页面停留时长"的旧范式转向"Agent任务完成率+工具调用深度"的新度量——当用户不再浏览页面而是让Agent代为执行，"停留时长"这个指标本身就失去了意义。两个团队的协作界面从"埋点与报表"升级为"调用链协议与意图图谱"。

百万上下文落地还有多远：关于MiniMax M3的关键追问

百万上下文真的能在生产环境中稳定使用吗

M3的API最高支持1M Tokens上下文窗口，保障至少512K Tokens可用。MSA架构虽然将单Token计算量压至上代1/20，但在实际生产中，百万级上下文的延迟和稳定性仍需大规模验证。目前M3提供M3-highspeed版本应对速度敏感场景，且全面支持自动Cache——这意味着重复上下文无需重复计算，对长程Agent中频繁复用前文的场景尤为关键。但"可用"和"好用"之间，还有大量边界条件需要跑通。

原生多模态和拼接多模态到底差在哪

拼接式多模态是在文本模型训练完成后，再外接视觉编码器——文本和视觉的语义空间天然不对齐，模型"看图说话"时容易产生幻觉或遗漏。M3从第零步开始多模态混合训练，百T级交错数据让文本和视觉在同一语义空间中深度融合。实测中，M3能直接阅读ICLR论文中的图表公式并据此生成代码，这是拼接式模型很难做到的——因为公式图像的语义理解需要视觉与文本的深层对齐，而非简单的图像描述拼接。

开源版和API版的差距有多大

MiniMax承诺10天内在HuggingFace和GitHub上完成开源，支持私有集群部署和微调。开源版是否保留完整的1M上下文能力和原生多模态，目前尚待确认。但考虑到M3是"目前全球唯一具备完整能力组合的开源选项"的定位，如果开源版大幅缩水，这个定位就站不住。对需要私有化部署的企业而言，这是一个关键观察点。

行业动态观察

MiniMax M3的发布标志着国产大模型从"单点突破"进入"三项全能"的新阶段。当MSA架构让百万上下文的生产成本暴降90%，当原生多模态从训练起点就深度对齐文本与视觉，当Agent能力从辅助编程进化到12小时自主论文复现，模型竞赛的核心正在从"参数规模"转向"能力完整性"。对App生态而言，百万上下文意味着用户行为日志可以完整送入模型，归因链路有了前所未有的信息承载空间——但前提是归因基础设施能跟上Agent长线程的节奏，否则百万Token窗口内只有信息没有归因，依然是"暗流量"。