UI-TARS-desktop入门指南：快速开发第一个插件-深圳市維司達科技有限公司

UI-TARS-desktop入门指南：快速开发第一个插件

1. UI-TARS-desktop简介

Agent TARS 是一个开源的多模态 AI Agent 框架，致力于通过融合 GUI 自动化、视觉理解（Vision）等能力，构建能够与现实世界工具无缝交互的智能体。其设计目标是探索一种更接近人类操作方式的任务执行范式，支持在复杂桌面环境中完成搜索、浏览网页、文件管理、命令行调用等多种任务。

TARS 提供了两种主要使用方式：CLI（命令行接口）和 SDK（软件开发工具包）。CLI 适合快速体验核心功能，而 SDK 则面向开发者，可用于定制专属 Agent 或集成到现有系统中。本文聚焦于UI-TARS-desktop—— 一个基于图形界面的轻量级应用，内置了 Qwen3-4B-Instruct-2507 模型，并通过 vLLM 实现高效推理服务，便于用户快速上手插件开发。

该应用集成了常用的工具模块，包括：

Search：联网信息检索
Browser：自动化浏览器操作
File：本地文件读写与管理
Command：执行系统命令

这些能力为构建具备实际生产力的 AI 插件提供了坚实基础。

2. 验证内置Qwen3-4B-Instruct-2507模型是否启动成功

在开始插件开发前，需确认后端大模型服务已正常运行。UI-TARS-desktop 使用 vLLM 加速 Qwen3-4B-Instruct-2507 的推理过程，确保响应速度满足交互需求。

2.1 进入工作目录

首先，打开终端并进入项目的工作空间目录：

cd /root/workspace

此路径通常包含日志文件、配置脚本及模型服务启动脚本。

2.2 查看模型启动日志

执行以下命令查看 LLM 推理服务的日志输出：

cat llm.log

若模型成功加载并启动，日志中应出现类似如下内容：

INFO:vLLM:Starting server with model=qwen/Qwen3-4B-Instruct-2507 INFO:APIEngine:LLM engine initialized successfully INFO:fastapi:Uvicorn running on http://0.0.0.0:8000

关键指标包括：

模型名称正确识别为Qwen3-4B-Instruct-2507
vLLM 引擎初始化完成
API 服务监听在指定端口（如8000）

提示：如果日志显示 CUDA 内存不足或模型下载失败，请检查 GPU 资源和网络连接状态。建议至少配备 6GB 显存以支持该模型的推理。

一旦确认日志无报错且服务已就绪，即可进入下一步前端验证。

3. 打开UI-TARS-desktop前端界面并验证功能

3.1 启动前端服务

确保后端模型服务运行后，启动 UI-TARS-desktop 前端界面。若使用默认配置，可通过以下命令启动：

python -m streamlit run ui_tars_app.py --server.port=8501

访问http://<your-server-ip>:8501即可进入 Web 界面。

3.2 功能验证流程

首次打开页面后，您将看到如下可视化界面：

主界面包含以下核心区域：

输入框：用于输入自然语言指令
工具选择面板：可勾选启用 Search、Browser、File 等工具
对话历史区：展示 AI 的思考路径与执行结果
插件管理入口：支持加载、卸载自定义插件

示例测试：查询今日天气

在输入框中输入：“请帮我查一下北京今天的天气。”
确保“Search”工具已启用。
提交请求后，观察 AI 是否调用搜索引擎获取实时数据，并结构化返回结果。

预期行为：

AI 自动拆解任务：确定地点 → 获取天气信息 → 格式化输出
调用内置 Search 工具发起网络请求
返回包含温度、空气质量、穿衣建议等内容的回答

成功响应表明：

模型推理链路通畅
工具调用机制正常
前后端通信稳定

进一步验证可尝试以下操作：

使用 “File” 工具读取本地.txt文件内容
通过 “Command” 执行ls或pwd查看目录结构
结合 Vision 模块分析截图中的文字信息（如有摄像头或图像上传功能）

可视化效果示例：

以上截图展示了完整的交互流程与多模态反馈能力。

4. 开发你的第一个插件

现在我们正式进入插件开发环节。UI-TARS-desktop 支持通过 SDK 扩展自定义功能，以下是一个简单的“时间查询插件”开发教程。

4.1 插件结构规范

所有插件需遵循统一目录结构：

plugins/ └── time_query/ ├── __init__.py ├── config.json └── main.py

其中：

__init__.py：使 Python 可识别为模块
config.json：声明插件元信息
main.py：实现核心逻辑

4.2 编写插件配置文件

创建plugins/time_query/config.json：

{ "name": "time_query", "description": "Returns current date and time in specified timezone.", "author": "developer", "version": "1.0.0", "tools": ["time"] }

4.3 实现核心逻辑

编辑plugins/time_query/main.py：

import datetime import pytz from typing import Dict, Any def get_current_time(params: Dict[str, Any]) -> Dict[str, Any]: """ 获取指定时区的当前时间 Args: params: 包含 timezone 的参数字典，例如 {"timezone": "Asia/Shanghai"} Returns: 包含时间和状态的响应字典 """ tz_name = params.get("timezone", "UTC") try: tz = pytz.timezone(tz_name) now = datetime.datetime.now(tz) time_str = now.strftime("%Y-%m-%d %H:%M:%S %Z") return { "success": True, "message": f"Current time in {tz_name}: {time_str}", "data": {"timestamp": now.isoformat(), "timezone": tz_name} } except Exception as e: return { "success": False, "message": f"Invalid timezone: {str(e)}" } # 注册函数供 Agent 调用 TOOL_FUNCTIONS = { "time": get_current_time }

注意：需提前安装依赖pip install pytz

4.4 注册并启用插件

重启 UI-TARS-desktop 应用，系统会自动扫描plugins/目录下的新模块。在前端界面中，可在“插件管理”中看到time_query插件已被加载。

4.5 测试插件功能

在输入框中输入：

请问东京现在几点？

AI 将解析意图，提取关键词“东京”，映射到时区"Asia/Tokyo"，并调用get_current_time函数返回结果。

预期输出示例：

Current time in Asia/Tokyo: 2025-04-05 10:30:22 JST

这表明插件已成功接入并可被自然语言触发。

5. 插件开发最佳实践

为了提升插件的稳定性与可用性，建议遵循以下工程化原则。

5.1 输入校验与异常处理

始终对params进行完整性检查，避免因缺失字段导致崩溃：

if "timezone" not in params: return {"success": False, "message": "Missing required parameter: timezone"}

5.2 支持异步操作

对于耗时操作（如网络请求），推荐使用异步模式提升响应效率：

import asyncio async def fetch_weather(params): # 使用 aiohttp 发起非阻塞请求 pass

5.3 日志记录便于调试

引入标准日志模块，方便排查问题：

import logging logging.basicConfig(level=logging.INFO) logger = logging.getLogger(__name__) logger.info("Time query executed for %s", tz_name)

5.4 文档化接口说明

在config.json中清晰描述每个工具的用途和参数格式，有助于其他开发者理解和复用。

6. 总结

本文系统介绍了如何使用UI-TARS-desktop快速开发首个 AI 插件。从环境验证、界面操作到插件编写，完整覆盖了初学者所需的全部步骤。

我们重点完成了：

验证 Qwen3-4B-Instruct-2507 模型通过 vLLM 成功启动
通过 Web 界面验证多模态任务执行能力
开发并注册一个可被自然语言调用的时间查询插件
掌握插件开发的基本结构与最佳实践

UI-TARS-desktop 的优势在于其低门槛 + 高扩展性的设计理念，既能让新手快速上手，也为高级用户提供灵活的定制空间。未来可进一步探索：

构建更复杂的复合型插件（如邮件+日历联动）
集成私有 API 实现企业内部系统控制
利用 Vision 模块实现屏幕内容理解与自动化点击

随着多模态 Agent 技术的发展，这类桌面级 AI 应用将成为人机协作的重要桥梁。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

UI-TARS-desktop入门指南：快速开发第一个插件