PChome 4月24日消息,小米正式发布MiMo-V2.5全链路语音大模型系列,包含三款TTS(语音合成)模型与一款ASR(语音识别)模型,标志着小米在Agent时代的语音交互能力上实现了从“听得清”到“说得好”的全面闭环。目前,TTS系列已在MiMo Studio开放体验,ASR模型权重与代码已正式开源。

此次发布的MiMo-V2.5-TTS系列主打“导演级”语音控制,支持通过自然语言指令精细调度语速、情绪与语气。其中,VoiceDesign功能允许用户“一句话生成全新音色”,而VoiceClone仅需30秒样本即可高保真复刻人声。作为听觉基座的MiMo-V2.5-ASR表现同样强劲,不仅支持吴语、粤语等中文方言及中英混说,还能在强噪音环境下精准识别,并原生输出标点符号。

这一举措进一步完善了小米的全栈AI能力。TTS系列在开放平台限时免费,配合ASR的开源策略,将大幅降低开发者构建具备高拟人化交互能力智能体的门槛,加速AI应用在真实场景中的落地。
滕州机床网