mirror of
https://github.com/zhayujie/chatgpt-on-wechat.git
synced 2026-06-02 00:57:41 +08:00
docs: document qianfan vision support
This commit is contained in:
@@ -28,6 +28,20 @@ Option 1: Native integration (recommended):
|
||||
| `ernie-4.5-turbo-32k` | General chat with a balanced context window and cost |
|
||||
| `ernie-x1-turbo-32k` | Tasks that need stronger reasoning |
|
||||
|
||||
## Vision tool
|
||||
|
||||
After `qianfan_api_key` is configured, Agent mode can auto-discover Qianfan for the Vision tool. The recommended Qianfan vision model is `ernie-4.5-turbo-vl-preview`:
|
||||
|
||||
```json
|
||||
{
|
||||
"tool": {
|
||||
"vision": {
|
||||
"model": "ernie-4.5-turbo-vl-preview"
|
||||
}
|
||||
}
|
||||
}
|
||||
```
|
||||
|
||||
Option 2: OpenAI-compatible configuration:
|
||||
|
||||
```json
|
||||
|
||||
@@ -23,6 +23,7 @@ If the current provider fails, the tool automatically tries the next one until i
|
||||
| Vendor | Vision Model | Notes |
|
||||
| --- | --- | --- |
|
||||
| OpenAI / Compatible | Main model | All OpenAI-compatible multimodal models |
|
||||
| Baidu Qianfan | ernie-4.5-turbo-vl-preview | Auto-discovered when `qianfan_api_key` is configured; can also be selected via `tool.vision.model` |
|
||||
| Qwen (DashScope) | Main model | Via MultiModalConversation API |
|
||||
| Claude | Main model | Anthropic native image format |
|
||||
| Gemini | Main model | inlineData format |
|
||||
@@ -52,7 +53,7 @@ To specify a particular model for the vision tool, add to `config.json`:
|
||||
{
|
||||
"tool": {
|
||||
"vision": {
|
||||
"model": "gpt-4o"
|
||||
"model": "ernie-4.5-turbo-vl-preview"
|
||||
}
|
||||
}
|
||||
}
|
||||
|
||||
@@ -28,6 +28,20 @@ description: Baidu Qianfan ERNIE モデル設定
|
||||
| `ernie-4.5-turbo-32k` | コンテキスト長とコストのバランスが良い一般チャット向け |
|
||||
| `ernie-x1-turbo-32k` | より強い推論が必要なタスク向け |
|
||||
|
||||
## Vision ツール
|
||||
|
||||
`qianfan_api_key` を設定すると、Agent モードの Vision ツールは Qianfan を自動検出できます。推奨する Qianfan の視覚モデルは `ernie-4.5-turbo-vl-preview` です:
|
||||
|
||||
```json
|
||||
{
|
||||
"tool": {
|
||||
"vision": {
|
||||
"model": "ernie-4.5-turbo-vl-preview"
|
||||
}
|
||||
}
|
||||
}
|
||||
```
|
||||
|
||||
方法 2: OpenAI 互換接続:
|
||||
|
||||
```json
|
||||
|
||||
@@ -23,6 +23,7 @@ Vision ツールは多段階の自動選択+自動フォールバック戦略
|
||||
| ベンダー | ビジョンモデル | 説明 |
|
||||
| --- | --- | --- |
|
||||
| OpenAI / 互換プロトコル | メインモデル | すべての OpenAI 互換マルチモーダルモデルに対応 |
|
||||
| Baidu Qianfan | ernie-4.5-turbo-vl-preview | `qianfan_api_key` を設定すると自動検出され、`tool.vision.model` でも指定できます |
|
||||
| 通義千問 (DashScope) | メインモデル | MultiModalConversation API 経由 |
|
||||
| Claude | メインモデル | Anthropic ネイティブ画像形式 |
|
||||
| Gemini | メインモデル | inlineData 形式 |
|
||||
@@ -52,7 +53,7 @@ Vision ツールで使用するモデルを指定するには、`config.json`
|
||||
{
|
||||
"tool": {
|
||||
"vision": {
|
||||
"model": "gpt-4o"
|
||||
"model": "ernie-4.5-turbo-vl-preview"
|
||||
}
|
||||
}
|
||||
}
|
||||
|
||||
@@ -28,6 +28,20 @@ description: 百度千帆 ERNIE 模型配置
|
||||
| `ernie-4.5-turbo-32k` | 通用对话,成本和上下文更均衡 |
|
||||
| `ernie-x1-turbo-32k` | 需要更强推理能力的任务 |
|
||||
|
||||
## Vision 工具
|
||||
|
||||
配置 `qianfan_api_key` 后,Agent 的 Vision 工具可以自动使用千帆视觉模型。默认推荐使用 `ernie-4.5-turbo-vl-preview`:
|
||||
|
||||
```json
|
||||
{
|
||||
"tool": {
|
||||
"vision": {
|
||||
"model": "ernie-4.5-turbo-vl-preview"
|
||||
}
|
||||
}
|
||||
}
|
||||
```
|
||||
|
||||
方式二:OpenAI 兼容方式接入:
|
||||
|
||||
```json
|
||||
|
||||
@@ -19,6 +19,7 @@ Vision 工具采用多级自动选择 + 自动兜底策略,无需手动配置
|
||||
| 厂商 | 视觉模型 | 说明 |
|
||||
| --- | --- | --- |
|
||||
| OpenAI / 兼容协议 | 使用主模型 | 支持所有 OpenAI 协议兼容的多模态模型 |
|
||||
| 百度千帆 (Qianfan) | ernie-4.5-turbo-vl-preview | 配置 `qianfan_api_key` 后自动发现,也可通过 `tool.vision.model` 指定 |
|
||||
| 通义千问 (DashScope) | 使用主模型 | 例如 qwen3.6-plus 等 |
|
||||
| Claude | 使用主模型 | Anthropic 原生图像格式 |
|
||||
| Gemini | 使用主模型 | inlineData 格式 |
|
||||
@@ -41,7 +42,7 @@ Vision 工具采用多级自动选择 + 自动兜底策略,无需手动配置
|
||||
{
|
||||
"tool": {
|
||||
"vision": {
|
||||
"model": "gpt-4o"
|
||||
"model": "ernie-4.5-turbo-vl-preview"
|
||||
}
|
||||
}
|
||||
}
|
||||
|
||||
Reference in New Issue
Block a user