小米发布MiMo-V2.5-TTS/ASR系列，语音合成与识别能力全面升级

2026-04-24 13:03 #产品

PChome 4月24日消息，小米正式发布MiMo-V2.5全链路语音大模型系列，包含三款TTS（语音合成）模型与一款ASR（语音识别）模型，标志着小米在Agent时代的语音交互能力上实现了从“听得清”到“说得好”的全面闭环。目前，TTS系列已在MiMo Studio开放体验，ASR模型权重与代码已正式开源。

此次发布的MiMo-V2.5-TTS系列主打“导演级”语音控制，支持通过自然语言指令精细调度语速、情绪与语气。其中，VoiceDesign功能允许用户“一句话生成全新音色”，而VoiceClone仅需30秒样本即可高保真复刻人声。作为听觉基座的MiMo-V2.5-ASR表现同样强劲，不仅支持吴语、粤语等中文方言及中英混说，还能在强噪音环境下精准识别，并原生输出标点符号。