docs: add CLI system docs

This commit is contained in:
zhayujie
2026-03-29 17:57:12 +08:00
parent e06925ab85
commit 3cb5a0fbd6
62 changed files with 2995 additions and 750 deletions

View File

@@ -1,25 +1,109 @@
---
title: browser - 浏览器
description: 访问和操作网页
description: 控制浏览器访问和操作网页
---
使用浏览器访问和操作网页,支持 JavaScript 渲染的动态页面
控制 Chromium 浏览器进行网页导航、元素交互和内容提取。支持 JavaScript 渲染的动态页面,使用精简 DOM 快照让 Agent 高效理解页面结构
## 依赖
## 安装
| 依赖 | 安装命令 |
| --- | --- |
| `browser-use` ≥ 0.1.40 | `pip install browser-use` |
| `markdownify` | `pip install markdownify` |
| `playwright` + chromium | `pip install playwright && playwright install chromium` |
<Tabs>
<Tab title="CLI 安装(推荐)">
```bash
cow install-browser
```
该命令会自动完成:
- 安装 `playwright` Python 包(旧系统自动降级兼容版本)
- 在 Linux 上安装系统依赖
- 下载 Chromium 浏览器Linux 服务器自动使用无头精简版)
- 自动检测国内网络并使用镜像加速
</Tab>
<Tab title="手动安装">
```bash
pip install playwright
playwright install chromium
```
Linux 服务器还需安装系统依赖:
```bash
sudo playwright install-deps chromium
```
如果系统较旧(如 Ubuntu 18.04glibc < 2.28),需安装兼容版本:
```bash
pip install playwright==1.28.0
python -m playwright install chromium
```
国内网络下载 Chromium 较慢,可设置镜像加速:
```bash
export PLAYWRIGHT_DOWNLOAD_HOST=https://registry.npmmirror.com/-/binary/playwright
python -m playwright install chromium
```
</Tab>
</Tabs>
<Note>
支持 Ubuntu 20.04+、Debian 10+、macOS、Windows。Ubuntu 18.04 等旧系统会自动降级安装兼容版本。
</Note>
## 工作流程
Agent 使用浏览器的典型流程:
1. **`navigate`** — 打开目标 URL
2. **`snapshot`** — 获取页面精简 DOM交互元素自动编号ref
3. **`click` / `fill` / `select`** — 通过 ref 编号操作元素
4. **`snapshot`** — 再次快照验证操作结果
## 支持的操作
| 操作 | 说明 | 关键参数 |
| --- | --- | --- |
| `navigate` | 打开 URL | `url` |
| `snapshot` | 获取页面结构化文本(主要方式) | `selector`(可选) |
| `click` | 点击元素 | `ref` 或 `selector` |
| `fill` | 填入文本 | `ref` 或 `selector``text` |
| `select` | 下拉选择 | `ref` 或 `selector``value` |
| `scroll` | 滚动页面 | `direction`up/down/left/right |
| `screenshot` | 截图保存到工作区 | `full_page` |
| `wait` | 等待元素或超时 | `selector``timeout` |
| `press` | 按键Enter、Tab 等) | `key` |
| `back` / `forward` | 浏览器前进/后退 | - |
| `get_text` | 获取元素文本内容 | `selector` |
| `evaluate` | 执行 JavaScript | `script` |
## 使用场景
- 访问指定 URL 获取页面内容
- 操作网页元素(点击、输入等)
- 访问指定 URL 获取动态页面内容
- 填写表单、登录操作
- 操作网页元素(点击按钮、选择选项等)
- 验证部署后的网页效果
- 抓取需要 JS 渲染的动态内容
## 运行模式
浏览器会根据运行环境自动选择模式:
| 环境 | 模式 |
| --- | --- |
| macOS / Windows | 有头模式(显示浏览器窗口) |
| Linux 桌面(有 DISPLAY | 有头模式 |
| Linux 服务器(无 DISPLAY | 无头模式headless |
可在 `config.json` 中手动覆盖:
```json
{
"tools": {
"browser": {
"headless": true
}
}
}
```
<Note>
浏览器工具依赖较重,如不需要可不安装。轻量的网页内容获取可使用 `web-fetch` 技能
浏览器工具依赖较重~300MB,如不需要可不安装。轻量的网页内容获取可使用 `web_fetch` 工具
</Note>

View File

@@ -31,6 +31,15 @@ description: CowAgent 内置工具系统
<Card title="memory - 记忆" icon="brain" href="/tools/memory">
搜索和读取长期记忆
</Card>
<Card title="env_config - 环境变量" icon="key" href="/tools/env-config">
管理 API Key 等秘钥配置
</Card>
<Card title="web_fetch - 网页获取" icon="globe" href="/tools/web-fetch">
获取网页或文档内容
</Card>
<Card title="scheduler - 定时任务" icon="clock" href="/tools/scheduler">
创建和管理定时任务
</Card>
</CardGroup>
## 可选工具
@@ -38,13 +47,13 @@ description: CowAgent 内置工具系统
以下工具需要安装额外依赖或配置 API Key 后启用:
<CardGroup cols={2}>
<Card title="env_config - 环境变量" icon="key" href="/tools/env-config">
管理 API Key 等秘钥配置
</Card>
<Card title="scheduler - 定时任务" icon="clock" href="/tools/scheduler">
创建和管理定时任务
</Card>
<Card title="web_search - 联网搜索" icon="magnifying-glass" href="/tools/web-search">
搜索互联网获取实时信息
</Card>
<Card title="vision - 图片分析" icon="eye" href="/tools/vision">
分析图片内容识别、描述、OCR 文字提取等)
</Card>
<Card title="browser - 浏览器" icon="window" href="/tools/browser">
控制浏览器访问和操作网页
</Card>
</CardGroup>

36
docs/tools/vision.mdx Normal file
View File

@@ -0,0 +1,36 @@
---
title: vision - 图片分析
description: 分析图片内容识别、描述、OCR 等)
---
使用 Vision API 分析本地图片或图片 URL支持内容描述、文字提取OCR、物体识别等。
## 依赖
需要配置至少一个 API Key通过 `env_config` 工具或工作空间 `.env` 文件配置):
| 后端 | 环境变量 | 优先级 |
| --- | --- | --- |
| OpenAI | `OPENAI_API_KEY` | 优先使用 |
| LinkAI | `LINKAI_API_KEY` | 备选 |
## 参数
| 参数 | 类型 | 必填 | 说明 |
| --- | --- | --- | --- |
| `image` | string | 是 | 本地文件路径或 HTTP(S) 图片 URL |
| `question` | string | 是 | 对图片提出的问题 |
| `model` | string | 否 | 模型名称(默认 gpt-4.1-mini |
支持的图片格式jpg、jpeg、png、gif、webp
## 使用场景
- 描述图片中的内容
- 提取图片中的文字OCR
- 识别物体、颜色、场景
- 分析截图、文档扫描件
<Note>
超过 1MB 的图片会自动压缩后上传。如果未配置任何 Vision API Key该工具不会被加载。
</Note>

32
docs/tools/web-fetch.mdx Normal file
View File

@@ -0,0 +1,32 @@
---
title: web_fetch - 网页获取
description: 获取网页或文档内容
---
获取 HTTP/HTTPS URL 的内容。对网页提取可读文本对文档文件PDF、Word、Excel 等)自动下载并解析内容。
## 参数
| 参数 | 类型 | 必填 | 说明 |
| --- | --- | --- | --- |
| `url` | string | 是 | HTTP/HTTPS URL网页或文档链接 |
## 支持的文件类型
| 类型 | 格式 |
| --- | --- |
| PDF | `.pdf` |
| Word | `.docx` |
| 文本 | `.txt`、`.md`、`.csv`、`.log` |
| 表格 | `.xls`、`.xlsx` |
| 演示文稿 | `.ppt`、`.pptx` |
## 使用场景
- 获取网页的文本内容
- 下载并解析远程文档
- 获取 API 响应内容
<Note>
`web_fetch` 只能获取静态 HTML 内容。如果页面需要 JavaScript 渲染(如 SPA 单页应用),请使用 `browser` 工具。
</Note>