mirror of
https://github.com/zhayujie/chatgpt-on-wechat.git
synced 2026-06-02 00:57:41 +08:00
74 lines
3.4 KiB
Plaintext
74 lines
3.4 KiB
Plaintext
---
|
||
title: vision - 画像分析
|
||
description: 画像コンテンツの分析(認識、説明、OCR など)
|
||
---
|
||
|
||
Vision API を使用してローカル画像や画像 URL を分析します。コンテンツの説明、テキスト抽出(OCR)、オブジェクト認識などに対応しています。
|
||
|
||
## モデル選択
|
||
|
||
Vision ツールは多段階の自動選択+自動フォールバック戦略を採用しており、手動設定なしで利用可能です:
|
||
|
||
1. **メインモデル** — 現在設定されているメインモデルで画像認識を実行(追加コストなし)
|
||
2. **その他の設定済みモデル** — API キーが設定されている他のマルチモーダルモデルを自動検出
|
||
3. **OpenAI** — `open_ai_api_key` を使用して gpt-4.1-mini を呼び出し
|
||
4. **LinkAI** — `linkai_api_key` を使用して LinkAI ビジョンサービスを呼び出し
|
||
|
||
`use_linkai=true` の場合、LinkAI が最優先になります。
|
||
|
||
現在のプロバイダーが失敗した場合、成功するかすべて失敗するまで自動的に次のプロバイダーを試行します。
|
||
|
||
### 対応モデル
|
||
|
||
| ベンダー | ビジョンモデル | 説明 |
|
||
| --- | --- | --- |
|
||
| OpenAI / 互換プロトコル | メインモデル | すべての OpenAI 互換マルチモーダルモデルに対応 |
|
||
| Baidu Qianfan | メインモデル | 多モーダルの主モデル(`ernie-5.1` など)は直接画像を処理。テキスト専用主モデルの場合は `ernie-4.5-turbo-vl` に自動フォールバック |
|
||
| 通義千問 (DashScope) | メインモデル | MultiModalConversation API 経由 |
|
||
| Claude | メインモデル | Anthropic ネイティブ画像形式 |
|
||
| Gemini | メインモデル | inlineData 形式 |
|
||
| 豆包 (Doubao) | メインモデル | doubao-seed-2-0 シリーズがネイティブ対応 |
|
||
| Kimi (Moonshot) | メインモデル | kimi-k2.6、kimi-k2.5 がネイティブ対応 |
|
||
| 智谱 AI | glm-5v-turbo | 常にビジョン専用モデルを使用 |
|
||
| MiniMax | MiniMax-Text-01 | 常にビジョン専用モデルを使用 |
|
||
|
||
<Note>
|
||
智谱 AI と MiniMax のテキストモデルは画像理解に対応していないため、対応するビジョン専用モデルが自動的に使用されます。
|
||
</Note>
|
||
|
||
## パラメータ
|
||
|
||
| パラメータ | 型 | 必須 | 説明 |
|
||
| --- | --- | --- | --- |
|
||
| `image` | string | はい | ローカルファイルパスまたは HTTP(S) 画像 URL |
|
||
| `question` | string | はい | 画像に対する質問 |
|
||
|
||
対応画像形式:jpg、jpeg、png、gif、webp
|
||
|
||
## カスタム設定
|
||
|
||
Vision ツールで使用するモデルを指定するには、`config.json` に以下を追加します:
|
||
|
||
```json
|
||
{
|
||
"tools": {
|
||
"vision": {
|
||
"model": "ernie-4.5-turbo-vl"
|
||
}
|
||
}
|
||
}
|
||
```
|
||
|
||
ほとんどの場合、設定は不要です。メインモデルがマルチモーダルに対応しているか、ビジョン対応の API キーが設定されていれば自動的に動作します。
|
||
|
||
## ユースケース
|
||
|
||
- 画像コンテンツの説明
|
||
- 画像からのテキスト抽出(OCR)
|
||
- オブジェクト、色、シーンの識別
|
||
- スクリーンショットやスキャン文書の分析
|
||
|
||
<Note>
|
||
1MB を超える画像は自動的に圧縮されます(最大辺 1536px)。すべての画像(リモート URL を含む)は base64 に変換して送信され、すべてのモデルバックエンドとの互換性を確保します。
|
||
</Note>
|