基于YOLO V5的盲人识物APP开发与实现-深圳市維司達科技有限公司

基于YOLO V5的盲人识物APP开发与实现

一、开发背景与意义

视觉障碍人群日常识物面临诸多不便，传统辅助工具如盲杖、导盲犬仅能解决路径导航问题，无法满足物品识别、环境感知的核心需求。基于计算机视觉的识物系统可通过图像识别为盲人提供物品信息，但传统算法存在识别精度低、实时性差、移动端适配性不足等问题。YOLOv5作为轻量级目标检测模型，兼具检测速度快、精度高、易于移动端部署的优势，适配盲人识物“快速识别、语音反馈”的核心需求。本研究开发基于YOLOv5的盲人识物APP，集成实时图像采集、目标检测、语音播报、离线识别等功能，可识别日常物品（如水杯、手机、椅子等）共80类，识别响应时间≤1秒，为盲人提供便捷的视觉辅助工具，对提升视觉障碍人群的生活自理能力与出行便利性具有重要的社会价值与实用意义。

二、系统整体架构与技术选型

（一）系统架构设计

采用“移动端采集-本地模型推理-语音交互-云端拓展”四层架构：

采集层：通过手机摄像头实时采集环境图像，支持手动触发/自动连续采集两种模式，适配不同识物场景；
推理层：基于轻量化YOLOv5模型在移动端本地完成目标检测，避免网络依赖，保障使用连续性；
交互层：通过语音合成技术将识别结果转化为语音播报，搭配语音指令控制APP操作，实现无视觉交互；
拓展层：云端存储自定义物品数据集与模型更新包，支持用户上传个性化物品图像进行模型增量训练。

（二）核心技术选型

目标检测模型：选用YOLOv5s作为基础模型（参数量仅7.2M），针对移动端算力优化，裁剪冗余卷积层，采用INT8量化压缩模型体积至12MB，满足手机存储与算力需求；
开发框架：前端基于Android Studio（Kotlin语言）开发移动端界面，后端采用PyTorch Lite实现模型移动端部署，语音交互集成百度语音识别/合成API；
数据集：以COCO数据集为基础，补充盲人高频接触物品（如盲文书籍、导盲杖、餐具等）共10000张标注图像，构建专属数据集；
硬件适配：支持Android 8.0及以上系统，适配主流中低端安卓手机（骁龙660及以上处理器），降低使用门槛。

三、核心功能开发与模型优化

（一）APP核心功能模块开发

实时识物模块：点击APP“识物”按钮，摄像头自动开启并采集图像，本地模型实时检测画面中的目标，识别结果以“物品名称+置信度”形式通过语音播报（如“水杯，置信度98%”），检测帧率≥15fps，满足实时性需求；
语音控制模块：支持语音指令（如“开始识别”“停止识别”“重复播报”），通过唤醒词“小助手”激活语音交互，无需手动操作屏幕；
离线识别模块：将优化后的YOLOv5模型打包为ONNX格式，部署至Android端本地，无网络环境下仍可完成80类基础物品识别；
自定义训练模块：用户可通过语音指令触发“自定义采集”，拍摄特定物品并语音标注名称，上传至云端完成模型增量训练，拓展识别品类。

（二）YOLOv5模型轻量化优化

为适配移动端算力，对YOLOv5s进行三重优化：

模型裁剪：移除Neck层部分冗余的C3模块，减少30%参数量，仅保留核心特征融合结构；
量化压缩：采用Post-Training Quantization（PTQ）将模型权重从FP32量化为INT8，模型体积压缩75%，推理速度提升40%；
锚框优化：针对日常物品尺寸（如水杯直径5-15cm、手机长10-18cm）重新聚类锚框参数，提升小目标识别精度。优化后模型在测试集上的mAP@0.5达92.3%，单张图像推理时间≤800ms，满足移动端实时识别需求。