Files
chatgpt-on-wechat/docs/models/mimo.mdx
2026-05-28 10:49:52 +08:00

136 lines
4.5 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: 小米 MiMo
description: 小米 MiMo 模型配置(文本对话 + 图像理解 + 语音合成)
---
小米 MiMo 是原生全模态大模型,单 `mimo_api_key` 即可同时启用文本对话、图像理解与语音合成。
<Tip>
通过 Web 控制台的「模型管理」页面可一站式配置以下全部能力,无需手动改配置文件。
</Tip>
## 文本对话
```json
{
"model": "mimo-v2.5-pro",
"mimo_api_key": "YOUR_API_KEY",
"mimo_api_base": "https://api.xiaomimimo.com/v1"
}
```
| 参数 | 说明 |
| --- | --- |
| `model` | 默认推荐 `mimo-v2.5-pro`,也可使用 `mimo-v2.5` |
| `mimo_api_key` | 在 [MiMo 开放平台](https://platform.xiaomimimo.com/console/api-keys) 创建 |
| `mimo_api_base` | 可选,默认为 `https://api.xiaomimimo.com/v1` |
### 模型选择
| 模型 | 适用场景 |
| --- | --- |
| `mimo-v2.5-pro` | 旗舰,原生全模态 + Agent 能力,最高 100 万 tokens 上下文 |
| `mimo-v2.5` | 综合版,原生全模态(文本 / 图像 / 视频 / 音频) |
## 思考模式
MiMo V2.5 系列默认开启「思考模式」:模型在输出最终回答前会先输出 `reasoning_content`(思维链),提升复杂任务表现。
通过全局配置 `enable_thinking` 控制是否展示(也可在 Web 控制台 - 配置页面切换):
```json
{
"enable_thinking": true
}
```
## 图像理解
配置 `mimo_api_key` 后Agent 的 Vision 工具可以自动使用 MiMo 视觉模型:
- 当主模型本身是多模态时(`mimo-v2.5-pro` / `mimo-v2.5`),直接由主模型识别图像,无需额外配置
- 当主模型是其他厂商时Vision 工具会根据顺序自动 fallback 到 `mimo-v2.5-pro`
如需手动指定 Vision 模型,可在配置文件中显式配置:
```json
{
"tools": {
"vision": {
"provider": "mimo",
"model": "mimo-v2.5-pro"
}
}
}
```
## 语音合成
```json
{
"text_to_voice": "mimo",
"text_to_voice_model": "mimo-v2.5-tts",
"tts_voice_id": "冰糖"
}
```
| 参数 | 说明 |
| --- | --- |
| `text_to_voice_model` | 当前仅支持 `mimo-v2.5-tts`(预置音色 + 唱歌模式) |
| `tts_voice_id` | 预置音色名(中文音色直接使用中文名作为 ID |
### 预置音色
| 音色 ID | 说明 |
| --- | --- |
| `冰糖` | 中文 · 女声(默认) |
| `茉莉` | 中文 · 女声 |
| `苏打` | 中文 · 男声 |
| `白桦` | 中文 · 男声 |
| `Mia` | 英文 · 女声 |
| `Chloe` | 英文 · 女声 |
| `Milo` | 英文 · 男声 |
| `Dean` | 英文 · 男声 |
也可在 Web 控制台的「模型管理 → 语音合成」下拉框中可视化选择。
### 风格控制
MiMo TTS 支持在合成文本中嵌入 **音频标签** 来控制情绪、语调、方言、角色甚至唱歌。标签需出现在 **最终被合成为语音的文本(即 Agent 回复内容)** 中,整体风格标签写在开头:
```
(风格)待合成内容
```
支持半角 `()`、全角 `` 或 `[]` 三种括号。常见风格示例:
| 类型 | 示例标签 |
| --- | --- |
| 基础情绪 | `开心` `悲伤` `愤怒` `恐惧` `惊讶` `兴奋` `委屈` `平静` `冷漠` |
| 复合情绪 | `怅然` `欣慰` `无奈` `愧疚` `释然` `忐忑` `动情` |
| 整体语调 | `温柔` `高冷` `活泼` `严肃` `慵懒` `俏皮` `深沉` `干练` `凌厉` |
| 音色定位 | `磁性` `醇厚` `清亮` `空灵` `稚嫩` `苍老` `甜美` `沙哑` |
| 人设腔调 | `夹子音` `御姐音` `正太音` `大叔音` `台湾腔` |
| 方言 | `东北话` `四川话` `河南话` `粤语` |
| 角色扮演 | `孙悟空` `林黛玉` |
| 唱歌 | `唱歌`(等价于 `sing` / `singing` |
示例:
- (磁性)夜已经深了,城市还在呼吸。
- (东北话)哎呀妈呀,这天儿也忒冷了吧!
- (粤语)呢个真係好正啊!
- (唱歌)原谅我这一生不羁放纵爱自由…
也可以在文本任意位置插入细粒度音频标签来控制呼吸、笑声、停顿等,例如:
```
(紧张,深呼吸)呼……冷静,冷静。(语速加快)自我介绍我背了五十遍了,应该没问题。
```
完整标签列表参见 [MiMo 语音合成文档](https://platform.xiaomimimo.com/docs/zh-CN/usage-guide/speech-synthesis-v2.5)。
<Tip>
CowAgent 在调用 TTS 时会将 Agent 的回复原文(含 `(...)` 标签)直接送入 MiMo 合成。你可以在人设 / 系统提示词里要求模型「在回复开头用 `(风格)` 标签控制语气」,即可让 IM 渠道(微信 / 飞书 / 钉钉 / 企微)的语音回复带上情绪、方言、唱歌等效果。
</Tip>