要不然让ai研究原神的界面也行，比如写个skill文件按下某个按键会进入什么界面，不给坐标，搞个程序识别按钮给个固定标签-深圳市維司達科技有限公司

你的想法非常具有可行性，而且与当前主流的原神自动化工具（如 BetterGI）和前沿 AI 智能体（如字节 Lumine）的核心思路高度一致：通过视觉识别界面元素并赋予语义标签，而非依赖固定坐标或内存读取。这种“基于图像理解 + 语义映射”的方式，不仅能提升泛化能力，还能有效规避游戏反作弊机制。

下面我将从实现逻辑、技术选型、标签体系设计、实际应用示例四个维度，为你详细拆解如何构建这样一个“不依赖坐标的原神界面识别系统”。

一、核心实现逻辑：视觉识别 + 语义标签映射

你的目标可以抽象为以下流程：

截屏获取当前游戏画面；
使用 CV（计算机视觉）模型识别界面上的关键 UI 元素（如“角色”按钮、“背包”图标、“确认”弹窗等）；
为每个识别到的元素分配一个固定的语义标签（如UI_BUTTON_CHARACTER、UI_DIALOG_CONFIRM）；
当用户/程序发出指令（如“打开角色界面”）时，系统查找对应标签的 UI 元素位置，并模拟点击；
整个过程不依赖绝对坐标，而是基于图像内容动态定位。

这正是BetterGI所采用的“零侵入式视觉自动化”架构，也是Lumine实现跨游戏泛化的基础。

二、技术选型建议

要实现上述功能，可组合使用以下开源库：

表格

功能	推荐工具	说明
屏幕截图	`PIL.ImageGrab`/`mss`	快速获取屏幕图像
图像识别	OpenCV + 模板匹配或YOLOv8 ONNX	模板匹配适合固定图标；YOLO适合复杂场景检测
文字识别	PaddleOCR / EasyOCR	识别任务文本、按钮文字（如“确认”“取消”）
鼠标/键盘模拟	`pyautogui`/`pynput`	执行点击、按键操作
标签管理	自定义 JSON/YAML 配置文件	定义`skill.json`，映射“按键 → 目标界面 → 触发按钮标签”

💡进阶方案：若追求更高鲁棒性，可训练一个轻量级Vision-Language Model (VLM)，输入图像 + 文本指令（如“打开角色面板”），直接输出点击坐标——这正是 Lumine 的核心技术。

三、设计“Skill 文件”：语义化界面导航

你可以创建一个skills.yaml（或.json）文件，定义操作逻辑。例如：

yaml

编辑

open_character_menu: trigger_key: "C" target_ui: "character_main" required_button: "UI_BUTTON_CHARACTER" # 系统需识别此标签的按钮 timeout: 5 # 秒 confirm_dialog: trigger_action: "click_confirm" target_ui: "dialog_active" required_button: "UI_BUTTON_CONFIRM"

系统运行时：

当检测到当前界面包含UI_BUTTON_CHARACTER标签的按钮（通过图像识别），且用户按下C键，则自动点击该按钮；
若界面中出现“确认”文字或标准确认按钮，系统将其标记为UI_BUTTON_CONFIRM，供后续操作调用。

✅优势：即使米哈游更新 UI 布局，只要按钮外观不变，系统仍能工作；若按钮样式变化，只需更新模板图或重新标注训练数据，无需修改坐标。

四、实际识别与标签化示例

以“打开角色界面”为例：

准备模板图：截取原神主界面右下角的“角色”图标（带剑的头像），保存为assets/ui_character_icon.png；

在识别引擎中注册标签：python

编辑

UI_ELEMENTS = { "UI_BUTTON_CHARACTER": "assets/ui_character_icon.png", "UI_BUTTON_BAG": "assets/ui_bag_icon.png", "UI_BUTTON_CONFIRM": TextPattern("确认") # 结合 OCR }

运行时识别：python

编辑

for label, template in UI_ELEMENTS.items(): pos = cv2_template_match(screen, template) if pos: register_ui_element(label, pos)

执行技能：python

编辑

if "UI_BUTTON_CHARACTER" in detected_elements: click(detected_elements["UI_BUTTON_CHARACTER"])

这种方式已在BetterGI中成熟应用，其Core/Recognition/模块就包含 OCR、YOLO、OpenCV 多种识别器。

五、与现有方案对比

表格

方案	是否依赖坐标	是否需游戏内数据	泛化能力	安全性
传统脚本（AutoHotkey）	是	否	差	高
内存读取工具	否	是（高风险）	中	❌ 极低（可能封号）
你的方案（视觉+标签）	否	否	强	高
Lumine AI	否	否	极强（跨游戏）	高

六、总结与建议

你提出的“用 AI 识别原神界面并打标签”的思路，完全可行且符合技术趋势。建议：

从模板匹配起步：用 OpenCV 实现基础按钮识别；
引入 OCR 处理文字按钮；
设计清晰的标签命名规范（如UI_{类型}_{功能}）；
将“技能”与“UI状态”解耦，形成可扩展的自动化框架；
参考 BetterGI 开源项目，其代码结构已非常接近你的设想。

未来若结合 VLM（如 Lumine 使用的视觉语言模型），甚至可实

《边缘受限设备API客户端轻量化与功能适配实战指南》

不同IoT终端的资源禀赋与业务诉求存在天壤之别，环境感知类终端仅需完成基础数据上报的核心交互，工业现场传感终端则需兼顾指令接收与状态回传，楼宇监测终端还需适配间歇性的断网续传需求，这就决定轻量化设计绝不能采用一刀切的模式，必须基于终端硬件参数台账与业务场景图谱…

李华

基于SpringBoot和Vue的实验室预约系统设计与实现

文章目录详细视频演示项目介绍技术介绍功能介绍核心代码系统效果图源码获取详细视频演示文章底部名片，获取项目的完整演示视频，免费解答技术疑问项目介绍基于Spring Boot的实验室预约系统采用前后端分离架构，后端以Spring Boot为核心框…

李华

下一代金融AI风险预警架构展望：AI应用架构师如何融入大模型与多模态技术？

下一代金融AI风险预警架构展望：AI应用架构师如何融入大模型与多模态技术？ 一、引入：当传统风控遇到“看不见的风险” 凌晨三点，某银行风控总监李阳被手机警报惊醒。屏幕上，某制造业企业的信用风险评分从“安全”骤跌…

李华

从企业能耗集采到区域碳管理-智慧能源平台开发指南

先上干货！ 墙内仓库地址（码云）：https://gitee.com/guangdong122/energy-management 已同步更新到 github 仓库温馨提示：文末有资源获取方式~ 能源系统|能源系统源码|企业能源系统|企业能源系统源码|能源监测系统一…

李华

机器学习面试问题及答案

摘要：本文整理了50个机器学习面试问题及答案，涵盖基础概念到高级应用。基础部分包括机器学习定义、监督/无监督学习、过拟合/欠拟合及解决方法、正则化、特征工程等核心概念。中级部分涉及线性回归、逻辑回归、决策树、随机森林等常用算法原理。高级部分…

李华

二维钻孔封孔效果模拟案例解析

二维钻孔封孔效果模拟案例钻孔封孔这事儿听着简单，实际在地下工程里可是个技术活。今天咱们拿MATLAB的PDE工具箱做个二维模拟，看看封孔材料怎么影响密封效果。先别急着关页面，代码部分我尽量说得像唠嗑，保证不催眠。先整点基础…

李华