mirror of
https://github.com/zhayujie/chatgpt-on-wechat.git
synced 2026-06-02 00:57:41 +08:00
136 lines
4.5 KiB
Plaintext
136 lines
4.5 KiB
Plaintext
---
|
||
title: 小米 MiMo
|
||
description: 小米 MiMo 模型配置(文本对话 + 图像理解 + 语音合成)
|
||
---
|
||
|
||
小米 MiMo 是原生全模态大模型,单 `mimo_api_key` 即可同时启用文本对话、图像理解与语音合成。
|
||
|
||
<Tip>
|
||
通过 Web 控制台的「模型管理」页面可一站式配置以下全部能力,无需手动改配置文件。
|
||
</Tip>
|
||
|
||
## 文本对话
|
||
|
||
```json
|
||
{
|
||
"model": "mimo-v2.5-pro",
|
||
"mimo_api_key": "YOUR_API_KEY",
|
||
"mimo_api_base": "https://api.xiaomimimo.com/v1"
|
||
}
|
||
```
|
||
|
||
| 参数 | 说明 |
|
||
| --- | --- |
|
||
| `model` | 默认推荐 `mimo-v2.5-pro`,也可使用 `mimo-v2.5` |
|
||
| `mimo_api_key` | 在 [MiMo 开放平台](https://platform.xiaomimimo.com/console/api-keys) 创建 |
|
||
| `mimo_api_base` | 可选,默认为 `https://api.xiaomimimo.com/v1` |
|
||
|
||
### 模型选择
|
||
|
||
| 模型 | 适用场景 |
|
||
| --- | --- |
|
||
| `mimo-v2.5-pro` | 旗舰,原生全模态 + Agent 能力,最高 100 万 tokens 上下文 |
|
||
| `mimo-v2.5` | 综合版,原生全模态(文本 / 图像 / 视频 / 音频) |
|
||
|
||
## 思考模式
|
||
|
||
MiMo V2.5 系列默认开启「思考模式」:模型在输出最终回答前会先输出 `reasoning_content`(思维链),提升复杂任务表现。
|
||
|
||
通过全局配置 `enable_thinking` 控制是否展示(也可在 Web 控制台 - 配置页面切换):
|
||
|
||
```json
|
||
{
|
||
"enable_thinking": true
|
||
}
|
||
```
|
||
|
||
## 图像理解
|
||
|
||
配置 `mimo_api_key` 后,Agent 的 Vision 工具可以自动使用 MiMo 视觉模型:
|
||
|
||
- 当主模型本身是多模态时(`mimo-v2.5-pro` / `mimo-v2.5`),直接由主模型识别图像,无需额外配置
|
||
- 当主模型是其他厂商时,Vision 工具会根据顺序自动 fallback 到 `mimo-v2.5-pro`
|
||
|
||
如需手动指定 Vision 模型,可在配置文件中显式配置:
|
||
|
||
```json
|
||
{
|
||
"tools": {
|
||
"vision": {
|
||
"provider": "mimo",
|
||
"model": "mimo-v2.5-pro"
|
||
}
|
||
}
|
||
}
|
||
```
|
||
|
||
## 语音合成
|
||
|
||
```json
|
||
{
|
||
"text_to_voice": "mimo",
|
||
"text_to_voice_model": "mimo-v2.5-tts",
|
||
"tts_voice_id": "冰糖"
|
||
}
|
||
```
|
||
|
||
| 参数 | 说明 |
|
||
| --- | --- |
|
||
| `text_to_voice_model` | 当前仅支持 `mimo-v2.5-tts`(预置音色 + 唱歌模式) |
|
||
| `tts_voice_id` | 预置音色名(中文音色直接使用中文名作为 ID) |
|
||
|
||
### 预置音色
|
||
|
||
| 音色 ID | 说明 |
|
||
| --- | --- |
|
||
| `冰糖` | 中文 · 女声(默认) |
|
||
| `茉莉` | 中文 · 女声 |
|
||
| `苏打` | 中文 · 男声 |
|
||
| `白桦` | 中文 · 男声 |
|
||
| `Mia` | 英文 · 女声 |
|
||
| `Chloe` | 英文 · 女声 |
|
||
| `Milo` | 英文 · 男声 |
|
||
| `Dean` | 英文 · 男声 |
|
||
|
||
也可在 Web 控制台的「模型管理 → 语音合成」下拉框中可视化选择。
|
||
|
||
### 风格控制
|
||
|
||
MiMo TTS 支持在合成文本中嵌入 **音频标签** 来控制情绪、语调、方言、角色甚至唱歌。标签需出现在 **最终被合成为语音的文本(即 Agent 回复内容)** 中,整体风格标签写在开头:
|
||
|
||
```
|
||
(风格)待合成内容
|
||
```
|
||
|
||
支持半角 `()`、全角 `()` 或 `[]` 三种括号。常见风格示例:
|
||
|
||
| 类型 | 示例标签 |
|
||
| --- | --- |
|
||
| 基础情绪 | `开心` `悲伤` `愤怒` `恐惧` `惊讶` `兴奋` `委屈` `平静` `冷漠` |
|
||
| 复合情绪 | `怅然` `欣慰` `无奈` `愧疚` `释然` `忐忑` `动情` |
|
||
| 整体语调 | `温柔` `高冷` `活泼` `严肃` `慵懒` `俏皮` `深沉` `干练` `凌厉` |
|
||
| 音色定位 | `磁性` `醇厚` `清亮` `空灵` `稚嫩` `苍老` `甜美` `沙哑` |
|
||
| 人设腔调 | `夹子音` `御姐音` `正太音` `大叔音` `台湾腔` |
|
||
| 方言 | `东北话` `四川话` `河南话` `粤语` |
|
||
| 角色扮演 | `孙悟空` `林黛玉` |
|
||
| 唱歌 | `唱歌`(等价于 `sing` / `singing`) |
|
||
|
||
示例:
|
||
|
||
- (磁性)夜已经深了,城市还在呼吸。
|
||
- (东北话)哎呀妈呀,这天儿也忒冷了吧!
|
||
- (粤语)呢个真係好正啊!
|
||
- (唱歌)原谅我这一生不羁放纵爱自由…
|
||
|
||
也可以在文本任意位置插入细粒度音频标签来控制呼吸、笑声、停顿等,例如:
|
||
|
||
```
|
||
(紧张,深呼吸)呼……冷静,冷静。(语速加快)自我介绍我背了五十遍了,应该没问题。
|
||
```
|
||
|
||
完整标签列表参见 [MiMo 语音合成文档](https://platform.xiaomimimo.com/docs/zh-CN/usage-guide/speech-synthesis-v2.5)。
|
||
|
||
<Tip>
|
||
CowAgent 在调用 TTS 时会将 Agent 的回复原文(含 `(...)` 标签)直接送入 MiMo 合成。你可以在人设 / 系统提示词里要求模型「在回复开头用 `(风格)` 标签控制语气」,即可让 IM 渠道(微信 / 飞书 / 钉钉 / 企微)的语音回复带上情绪、方言、唱歌等效果。
|
||
</Tip>
|