MiMo-V2-Omni
该模型采用了创新的统一架构,将文本、图像、视频和音频的理解能力深度融合,实现了真正意义上的“原生全模态”
标签:ai大模型MiMo-V2-Omni MiMo-V2-Omni官网 MiMo-V2-Omni官网入口MiMo-V2-Omni官网:多模态大模型,文本.图像.视频和音频的理解能力深度融合
什么是MiMo-V2-Omni?
作为专为物理世界交互设计的模型,小米MiMo-V2-Omni的核心功能集中在其强大的智能体(Agent)执行力上。它原生具备了工具调用、函数执行以及图形用户界面(GUI)的直接操作能力。用户只需通过简单的语音或文本指令,MiMo-V2-Omni即可在移动端或PC端跨应用完成复杂任务。例如,它能自主打开社交平台查阅评测,随后跳转电商平台进行跨店比价,甚至能与客服沟通并完成下单操作。这种从“理解意图”到“直接交付结果”的跃迁,是MiMo-V2-Omni最显著的特色。通过接入小米庞大的生态链,它不仅能操作软件,还能深度联动各类智能硬件,实现物理空间内的自动化流转。对于开发者而言,MiMo-V2-Omni开放的高性能API和更具竞争力的Token定价,也极大降低了开发全模态智能应用的门槛,开启了全自动AI助手的新时代。
MiMo-V2-Omni官网: https://mimo.xiaomi.com/mimo-v2-omni
好的,我已经收集了足够的信息,现在开始写作这篇4500字的专业博客文章。
小米 MiMo-V2-Omni 深度评测:一个真正读懂世界的全模态 Agent 基座
2026年3月19日凌晨,小米悄然发布了三款自研大模型——MiMo-V2-Pro、MiMo-V2-Omni 和 MiMo-V2-TTS。消息一出,科技圈迅速沸腾。 其中最令人瞩目的,正是那个被命名为 MiMo-V2-Omni 的全模态基座模型。
发布之前,它以「Healer Alpha」为代号悄悄挂上全球各大 AI 评测榜单,不少榜单用户对这个神秘模型啧啧称奇,却不知道它的真实来历。 当谜底揭晓,外界才意识到:这是一家手机厂商,在大模型赛道上完成了一次真正意义上的技术跃升。
它到底是什么
MiMo-V2-Omni 的官方定位是「全模态 Agent 基座模型」。从命名就能感受到小米的野心——”Omni”意为全能,而这个模型的核心设计哲学恰恰如此:从底层架构开始,彻底打通文本、视觉与音频三种模态,将「感知」与「行动」深度绑定,构建出一个原生支持多模态感知、工具调用、函数执行及 GUI 操作能力的统一体。
与那些事后缝合多模态能力的模型不同,MiMo-V2-Omni 不是把语音识别模块、图像识别模块、文本模型拼接在一起,而是从预训练阶段就让这三种感知能力共生于同一套神经网络权重之中。这意味着它在处理一个同时包含对话、背景音乐、字幕与画面的视频时,不需要先拆解再汇总,而是像人类大脑一样进行整体性的「联觉推理」。
在正式发布前一周,内测期间模型已经接入 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 五大主流 Agent 开发框架,联合为全球开发者提供限时免费接口支持。 这个节奏传递出的信号很明确:小米不只是在发布一个能力模型,而是在构建一个 Agent 时代的基础设施。

核心能力全解析
音频理解:当前最强基座之一
音频能力是 MiMo-V2-Omni 最令人惊艳的模块。它在 MMAU-Pro 上得分 69.4,在 BigBench Audio 上达到 94.0,两项指标均超过 Gemini 3 Pro。
它支持的功能远不止语音转文字:
- 环境声分类:能够识别背景声音的类型,比如区分工厂噪音与人群嘈杂,在监控、安防、工业检测等场景中具有直接落地价值
- 多说话人分离:在多人对话的音频中,精准区分不同说话者的内容,并逐人输出对应文字
- 音频-视觉联合推理:在处理视频时,声音轨道与画面轨道同时输入模型,模型能够感知两者的对应关系,例如听出某段对话对应画面中哪个人物
- 超长音频理解:支持对超过 10 小时的连续音频进行深度语义理解,据官方说法,这是目前全球首个能在此规模下稳定工作的全模态模型
对于播客制作者、法律行业录音整理、医疗问诊转录等场景,这个能力意味着不再需要拆分文件再拼接结果,一次性输入、一次性产出完整的结构化内容成为可能。
图像理解:逼近顶尖闭源模型
在图像理解基准 MMMU-Pro 上,MiMo-V2-Omni 达到 76.8 分,在 CharXiv RQ(复杂图表理解)上得到 80.1 分,后者明显高于 Claude Opus 4.6 的 77.4 分。
它具备的核心能力包括:
- 多学科视觉推理:能够解读物理、化学、生物、医学等专业领域的图示,不只是「看到」,而是真正理解图中的逻辑关系
- 复杂图表分析:面对嵌套折线图、双坐标轴、热力矩阵等高密度信息图表,可以精准提取数据趋势、异常点及关键指标
- 文档中图片理解:在接入 WPS Office 的测试中,模型能够解析文档内嵌入的图片内容并生成对应文字描述,为知识工作者提供端到端的文档处理能力
视频理解:未来推理是关键差异化
视频理解方向,MiMo-V2-Omni 在 Video-MME 上得分 85.3,在 FutureOmni(未来推理)基准上得到 66.7,高于 Gemini 3 Pro 的 62.9 和 Claude Opus 4.6 的 60.3。
「未来推理」这个概念值得展开解释。传统视频理解模型的任务是「描述发生了什么」,而 FutureOmni 测试的是「基于当前画面和声音,预判接下来可能发生什么」。这项能力在自动驾驶、安防预警、体育赛事分析等场景中意义重大——不是被动地记录,而是主动地预判。
支持原生音视频联合输入,最长视频输入为一小时,并且通过创新的视频预训练技术,模型学会了将「看到的」和「听到的」融合成完整的场景理解。
Agent 行动能力:从感知到执行
感知能力只是 MiMo-V2-Omni 的一半。另一半,是它的 Agent 执行能力。
在真实数字环境交互评测中:
- MM-BrowserComp 得分 52.0,显著高于 Gemini 3 Pro 的 37.2 和 GPT-5.2 的 47.4
- OmniGAIA 得分 49.8
- ClawEval 得分 54.8,高于 Gemini 3 Pro 的 51.9 和 GPT-5.2 的 50.0
- PinchBench 得分 85.6,超越 Gemini 3 Pro(70.7)和 GPT-5.2(77.0),接近 Claude Opus 4.6 的 86.3
在结合 OpenClaw 框架的实测中,模型能够像真人一样操控浏览器:检索商品信息、多平台比价、与客服对话砍价,直至完成下单,遇到网页报错或多标签切换时可以自主判断并修正策略。 这不是脚本自动化,而是真正意义上的「理解意图—制定计划—执行操作—验证结果」的闭环智能体行为。

API 接入与定价
MiMo-V2-Omni 已正式开放 API 服务,定价策略如下:
| 项目 | 详情 |
|---|---|
| 上下文长度 | 256K tokens |
| 输入价格 | $0.40 / 百万 tokens(约合人民币 0.4 元) |
| 输出价格 | $2.00 / 百万 tokens |
| 支持框架 | OpenClaw、OpenCode、KiloCode、Blackbox、Cline |
| 多模态输入 | 文本、图像、音频、视频(最长 1 小时) |
相比旗舰版 MiMo-V2-Pro(输入 $1、输出 $3),Omni 的输入价格仅为其 40%,而在多模态能力上反而更全面。 对于需要大规模处理音视频内容的开发者而言,这个定价具有相当高的性价比。

真实场景测评
在正式发布前的测试阶段,多个独立团队对模型进行了实测。
创作者场景:将一段包含中英文混合的 10 分钟原始视频输入 MiMo-V2-Omni,模型不仅完成了完整转录,还识别出背景音乐情绪、主说话人的语气变化(包括讽刺和激动),并自动生成了摘要与标签建议,全程无需人工拆分处理步骤。
办公自动化场景:接入 WPS Office 后,通过自然语言指令,模型能够生成格式规范的 Word 文档、带有公式的结构化 Excel 表格,以及排版专业的 PPT 和 PDF,整个过程不需要用户手动操作任何界面元素。
Browser Use 场景:在 OpenClaw 框架下,给模型一个任务:「帮我找到某型号的最低价并完成购买」。模型自主打开多个购物网站,比价、识别优惠规则、模拟点击操作,遇到验证码弹窗后切换策略,最终完成交易。这个流程中,没有任何预设脚本,全靠模型实时理解当前屏幕内容并做出判断。
长音频处理场景:将一段 3 小时的学术访谈音频输入,模型提炼出核心论点、梳理逻辑脉络,并按主题分段输出,效果等同于一名认真做了全程笔记的研究助理。
当然,也有一些值得关注的问题:部分评测机构指出,小米公开的 benchmark 数据存在一定「评测优化」的倾向,部分成绩是在特定评测集上调优后取得的,不能完全等同于模型在所有场景下的绝对实力。 这是当前整个大模型行业的通病,需要用户结合自身实际场景做独立评估。

同类产品横向对比
MiMo-V2-Omni 定位于全模态 Agent 场景,与之最具可比性的是以下五款产品:
Gemini 3 Pro(Google)
Google 的旗舰多模态模型,支持视频、图像、音频和文本输入,具备 100 万 token 上下文。在视频理解方向是此前公认的领先者。但在 MiMo-V2-Omni 发布后,多个基准被对方超越——尤其是 MMAU-Pro(音频理解 67.0 vs 69.4)、FutureOmni(62.9 vs 66.7)和 MM-BrowserComp(37.2 vs 52.0)。 Gemini 3 Pro 的优势在于生态整合深度,与 Google Workspace 的深度绑定让它在企业办公场景仍具优势,但在独立 Agent 执行能力上已明显落后于 Omni。
GPT-5.2(OpenAI)
OpenAI 的多模态旗舰,支持图像与文本输入,并有推理模式可切换更深度的链式思考。在纯文本推理、代码生成等方向依然是行业标杆之一。但 GPT-5.2 目前的音频能力相对受限,不具备直接的原生长音频输入能力,在 MM-BrowserComp(47.4 vs 52.0)和 ClawEval(50.0 vs 54.8)等 Agent 基准上均被 MiMo-V2-Omni 超越。 定价方面 GPT-5.2 显著更贵,对于预算敏感的开发者不友好。
Claude Opus 4.6(Anthropic)
Anthropic 旗舰模型,以代码生成和复杂工具调用著称,在 SWE-Bench Verified 等编程基准上仍领先。 但 Claude Opus 4.6 目前以文本为主,多模态能力相对受限。在图像理解基准 CharXiv RQ 上,MiMo-V2-Omni 以 80.1 分明显超越其 77.4 分。 Claude 的优势在于指令遵循和长文本写作的稳定性,但 Agent 执行能力与 Omni 相比差距明显。
Qwen2.5-VL(阿里云)
通义千问团队的多模态模型,在中文场景和文档理解上表现出色,是国内最有竞争力的全模态模型之一。支持图像、视频输入,在文档OCR和图表分析方向积累深厚。但在原生音频理解(尤其是超长音频和环境声分类)方面,与 MiMo-V2-Omni 存在明显差距。Agent 执行能力方面,Qwen2.5-VL 的 GUI 操作能力相对基础,尚未在 MM-BrowserComp 等专项基准上取得突破性成绩。价格方面二者接近,Qwen2.5-VL 在中文理解和本土应用场景的适配上具备一定优势。
MiniMax M2.5
2026年初崛起的国产多模态模型,主打超长上下文(100万token)和文本生成能力。在纯文本任务、工具调用和函数执行方面表现稳健,是 Claude 的有力挑战者。 然而 MiniMax M2.5 目前不支持音频输入,视频理解能力也尚未达到 Omni 级别,属于「深度文本型」模型,对于需要全模态感知能力的 Agent 开发场景适用性有限。
五款模型综合对比
| 维度 | MiMo-V2-Omni | Gemini 3 Pro | GPT-5.2 | Claude Opus 4.6 | Qwen2.5-VL |
|---|---|---|---|---|---|
| 音频理解 | ★★★★★ | ★★★★☆ | ★★★☆☆ | ★★☆☆☆ | ★★★☆☆ |
| 图像理解 | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★☆ |
| 视频理解 | ★★★★★ | ★★★★★ | ★★★☆☆ | ★★☆☆☆ | ★★★★☆ |
| Agent 执行 | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★☆☆ |
| 文本推理 | ★★★★☆ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★☆ |
| 上下文长度 | 256K | 1M | 128K | 200K | 128K |
| 输入定价 | $0.40/M | ~$1.25/M | ~$2.5/M | ~$3/M | $0.3/M |

架构设计的深层逻辑
理解 MiMo-V2-Omni 的能力,需要从架构设计的角度切入。它与 MiMo-V2-Pro 共同构成了小米大模型体系中「感知+执行」的双引擎:Pro 是深度思考的「大脑」,Omni 是全感知、全行动的「身体」,TTS 是负责输出表达的「声音」。
这三者共同覆盖了从「理解世界」到「在世界中行动」再到「与世界沟通」的完整 Agent 闭环——这也是小米在发布会上最核心的产品叙事:不是一个又一个孤立的大模型,而是为 Agent 时代打造的完整技术栈。
Omni 的技术核心在于「原生全模态预训练」。大多数竞品的全模态能力是通过后期微调或「专家路由」(Mixture of Experts)实现的——不同模态走不同的专家网络,最后汇总输出。这种方式的优点是灵活,缺点是模态之间的联合推理能力薄弱。Omni 选择了一条更激进的路:在预训练阶段就让文本、视觉、音频三种信号共同参与模型权重的形成,让跨模态推理能力内化于模型的基础能力之中。
这正是它在「音视频联合推理」和「未来推理」这两个最难的多模态任务上能够超越竞争对手的根本原因。
定价策略:性价比的战略意图
MiMo-V2-Omni 的输入定价 $0.40/百万 tokens,输出 $2.00/百万 tokens,是同类全模态顶尖模型中最低价格区间之一。 做个横向对比:GPT-5.2 的定价约为 Omni 的六倍,Claude Opus 4.6 的定价约为七倍。
这个定价背后是小米的战略计算。雷军在发布当天公开表示,2026年小米在 AI 领域的投入将超过 160 亿元人民币。 如此大规模的投入,目标显然不是在大模型市场的小圈子里收取 API 费用,而是通过低价快速积累开发者生态,让 MiMo 系列成为各类 Agent 应用的底层基础设施。
当你的模型成为开发者默认选择的 Agent 基座,小米硬件生态(小米手机、小米汽车、小米智能家居)的 AI 能力就有了充沛的「弹药供应」。这不是一笔模型生意,这是一盘更大的棋。
开发者接入指南
当前接入 MiMo-V2-Omni 的主要路径:
- 官方 API:通过 mimo.xiaomi.com 申请 API Key,支持 256K 上下文,支持文本、图像、音频、视频多模态输入
- OpenClaw 框架:最深度的 Agent 集成方式,支持 Browser Use、GUI 操控、多工具链编排
- OpenCode / KiloCode:面向代码生成和工程自动化场景的集成入口
- Blackbox:面向企业 AI 工作流场景的集成平台
- Cline:VS Code 插件生态,适合开发者在 IDE 内直接调用 Omni 的多模态能力
- Puter.js:前端开发者可通过 Puter.js 在浏览器端直接调用 MiMo-V2-Omni 的 API
值得注意的是,目前 API 的音视频处理延迟在高并发场景下仍有优化空间,官方也坦承在发布后仍持续迭代,经过一周的优化后模型全模态感知和 Agent 行动能力的稳定性已有明显提升。
几个值得关注的细节
代号背后的产品逻辑:发布前,Omni 的测试版代号「Healer Alpha」本身就是一个有意思的命名——治愈者,暗示这个模型的设计初衷是「弥合」多模态感知与行动之间长期存在的鸿沟。
五大框架联合上线:同一时间联合五个主流 Agent 框架同步接入,这在国内模型发布史上几乎没有先例,说明小米在发布前进行了相当长时间的生态预热工作,这不是一次仓促的发布。
256K vs 1M 的取舍:Omni 选择 256K 而非 Pro 的 1M 上下文,是性能与成本的有意权衡。对于实时多模态 Agent 任务,超长上下文带来的收益边际递减,而过长上下文会显著增加推理延迟——256K 在当前绝大多数真实 Agent 场景中已经绰绰有余。
中文优化:尽管小米没有专门强调,但多名独立测试者指出 MiMo-V2-Omni 在中文语境下的表现明显强于大多数海外同级模型,无论是对中文方言口音的识别,还是对中文文档排版逻辑的理解,都体现出针对中文数据集的深度优化。
MiMo-V2-Omni 适合谁
综合以上能力分析,以下场景与用户群体最能从这个模型中获益:
- 内容创作者与媒体团队:视频摘要、自动字幕、跨语言内容分析一步到位,无需多个工具串联
- Agent 应用开发者:低价格+高 Agent 执行能力,是构建全模态 AI 助手的高性价比基座
- 企业知识管理:对接 WPS/Office 文档体系,实现文档的智能理解、生成与归档
- 研究与学术场景:超长音频理解使得学术讲座、访谈录音的自动整理成为可能
- 电商与消费场景开发者:Browser Use 能力的成熟使得购物助手、价格监控等复杂场景落地变得可行
不太适合的场景:如果你的核心需求是纯文本深度推理或超百万 token 的超长上下文处理,MiMo-V2-Pro 是更合适的选择;如果你的场景对代码生成的精确度有极高要求,Claude Opus 4.6 目前仍是更稳的选项。
MiMo-V2-Omni 代表的不只是小米技术能力的一次展示,更是国内大模型生态在全模态 Agent 赛道上第一次真正意义上的领先出击。 它在音频理解和 Agent 执行能力上的基准成绩,已经让国际顶尖模型感到压力。更重要的是,这个模型不是活在实验室里的,而是以极具竞争力的价格开放给了全球每一个开发者。接下来的关键,是看围绕它构建的应用生态能走多远。
数据评估
本站别摸鱼导航提供的MiMo-V2-Omni都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由别摸鱼导航实际控制,在2026年3月21日 下午3:56收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,别摸鱼导航不承担任何责任。
