chatgpt-on-wechat/docs/ja/tools/vision.mdx

---
title: vision - 画像理解
description: 画像コンテンツを分析（認識、説明、OCR など）
---

Vision API を使用してローカル画像や画像 URL を分析します。コンテンツの説明、テキスト抽出（OCR）、オブジェクト認識などに対応しています。

## モデル選択

Vision ツールは多段階の自動選択 + 自動フォールバック戦略を採用しており、手動設定なしで利用できます：

1. **メインモデル** — 現在設定されているメインモデルを優先的に使用して画像認識を行います（マルチモーダルモデルである必要があります）
2. **その他の設定済みモデル** — API Key が設定済みのその他のマルチモーダルモデルを自動的に検出して候補とします

現在のプロバイダーで呼び出しに失敗した場合、成功するかすべて失敗するまで自動的に次のプロバイダーを試行します。

### 対応モデル

| プロバイダー | ビジョンモデル | 説明 |
| --- | --- | --- |
| OpenAI / 互換プロトコル | メインモデルを使用 | すべての OpenAI 互換マルチモーダルモデルに対応 |
| 通義千問 (DashScope) | メインモデルを使用 | 例：qwen3.6-plus など |
| Claude | メインモデルを使用 | Anthropic ネイティブ画像形式 |
| Gemini | メインモデルを使用 | inlineData 形式 |
| 豆包 (Doubao) | メインモデルを使用 | doubao-seed-2-0 シリーズがネイティブ対応 |
| Kimi (Moonshot) | メインモデルを使用 | kimi-k2.6、kimi-k2.5 がネイティブ対応 |
| 百度 Qianfan | メインモデルを使用 | デフォルトでマルチモーダルメインモデル（`ernie-5.1` など）を使用。メインモデルが非対応の場合は `ernie-4.5-turbo-vl` にフォールバック |
| 智谱 AI | glm-5v-turbo | 常にビジョン専用モデルを使用 |
| MiniMax | MiniMax-Text-01 | 常にビジョン専用モデルを使用 |

<Note>
  智谱と MiniMax のテキストモデルは画像理解に対応していないため、常に対応するビジョン専用モデルが使用されます。手動で指定する必要はありません。
</Note>

> `use_linkai=true` の場合、デフォルトで LinkAI のマルチモーダルモデルが使用されます。

## カスタム設定

Vision で使用するモデルを指定したい場合は、`config.json` に以下のように設定できます：

```json
{
    "tools": {
        "vision": {
            "model": "gpt-4.1"
        }
    }
}
```

指定したモデルが**優先的に使用**され、ツールはモデル名に応じて対応するプロバイダーへ自動ルーティングします。呼び出しに失敗した場合は、他の設定済みプロバイダーへ自動的にフォールバックします。

ほとんどの場合、設定は不要です。メインモデルがマルチモーダルに対応しているか、ビジョン対応の API Key が 1 つでも設定されていれば自動的に動作します。

## パラメータ

| パラメータ | 型 | 必須 | 説明 |
| --- | --- | --- | --- |
| `image` | string | はい | ローカルファイルパスまたは HTTP(S) 画像 URL |
| `question` | string | はい | 画像に対する質問 |

対応画像形式：jpg、jpeg、png、gif、webp


## ユースケース

- 画像コンテンツの説明
- 画像からのテキスト抽出（OCR）
- オブジェクト、色、シーンの認識
- スクリーンショットやスキャン文書などの分析

<Note>
  1MB を超える画像は自動的に圧縮してアップロードされます。すべての画像（リモート URL を含む）は base64 に統一変換して送信され、すべてのモデルバックエンドとの互換性を確保します。
</Note>