点击蓝字
关注我们
关注并星标
从此不迷路
计算机视觉研究院
公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
https://pmc.ncbi.nlm.nih.gov/articles/PMC12084357/pdf/41598_2025_Article_1898.pdf
计算机视觉研究院专栏
Column of Computer Vision Institute
本文提出的YOLOv7-SORT-LSTM时空融合框架,在 4 大权威行为识别数据集上刷出 SOTA 精度,最高拿下100% 准确率,兼顾实时性与鲁棒性,直接打通实验室到落地的最后一公里!
PART/1
痛点
传统行为识别方案始终绕不开两大短板:
只抓空间不看时序:单靠 CNN 提取单帧特征,看不懂 “连续动作”,走路 / 跑步、挥手 / 鼓掌极易混淆;
只记时序丢了空间:纯 RNN/LSTM 忽略目标定位,遮挡、人物移动就直接 “跟丢”;
现实场景太苛刻:多视角、弱光照、复杂背景,让多数模型一落地就 “拉胯”。
简言之,空间精准定位 + 时序连贯建模,缺一不可。而这篇研究的核心,就是把两大能力完美融合。
PART/2
创新
硬核破局:三大模块联手,时空双强赋能
研究团队没有堆砌复杂模型,而是用 “检测 + 跟踪 + 时序建模” 的极简 pipeline,实现 1+1+1>3 的效果。
1. 空间特征提取:YOLOv7 一帧锁定关键目标
选用YOLOv7作为空间检测主干,它是实时检测的 “速度与精度之王”:
70+FPS 高速推理,单帧仅 14ms,适配实时视频流;
精准提取人体边界框、姿态、交互对象等核心特征;
抗遮挡、抗光照变化,复杂场景也能精准定位人体。
YOLOv7 与 Faster R-CNN、RetinaNet、SSD 检测模型对比表
2. 时序一致性保障:SORT 跟踪算法绝不 “跟丢”
YOLO 逐帧检测会出现目标 ID 错乱,SORT 轻量跟踪算法完美补位:
基于卡尔曼滤波预测人体轨迹,遮挡、快速移动也能保持目标唯一 ID;
30+FPS 实时运行,推理仅 10ms,几乎无算力损耗;
解决 “帧间人物不连贯” 问题,让时序建模有稳定输入。
此处插入原文表 3:SORT 与 DeepSORT、KLT、FairMOT 跟踪算法对比表
3. 时序动作建模:LSTM 读懂连续行为
最后用LSTM处理时序特征,专门解决 “长序列动作遗忘” 问题:
记忆多帧动作关联,精准识别跑步、跳跃、拳击等连续行为;
轻量化设计,参数量仅 64 万,推理 39ms / 帧;
自动过滤无效帧,聚焦动作核心变化。
YOLO-SORT-LSTM 整体架构图
PART/3
实验
实测封神!4 大数据集刷出顶尖精度
团队用UCF101、KTH、WEIZMANN、IXMAS4 大全球通用 HAR 数据集验证,覆盖简单动作、复杂行为、单视角、多视角全场景,结果直接 “碾压” 主流方案。
4 大行为识别数据集核心特征对比表
核心精度战绩:
UCF101(复杂真实动作):96% 准确率,精准区分 101 类行为;
KTH(基础日常动作):99% 准确率,走路 / 跑步 / 挥手零误判;
WEIZMANN(简易规范动作):100% 准确率,完美全对;
IXMAS(多视角复杂动作):98% 准确率,360° 视角也能稳识别。
本文方法与主流 SOTA 行为识别方案精度对比表
训练与泛化能力拉满
训练曲线平稳无过拟合,验证精度紧跟训练精度;
4 大数据集训练 / 验证精度 & 损失曲线
混淆矩阵显示,仅极少量相似动作(挥手 / 鼓掌)轻微误判,其余行为分类精准;
4 大数据集混淆矩阵热图
5 折交叉验证验证,平均精度 98.58%,结果具备统计学显著性,绝非偶然。
PART/4
落地
落地不愁:轻量高效,全场景适配
相比 3D CNN、Transformer 等重型模型,这款框架天生为落地而生:
- 算力友好:总内存仅 25-30MB,单帧推理 39ms,25-30FPS 实时运行;
- 边缘适配:无需高端 GPU,普通 RTX 3060 即可流畅跑通,嵌入式设备也能部署;
- 抗干扰强:有效应对遮挡、光照变化、复杂背景,适配真实安防、医疗场景。
框架各组件计算复杂度对比表
本文与主流方案计算效率对比表
可直接落地的场景:
公共安防:自动识别打架、跌倒、遗留物品等异常行为;
智慧医疗:老人看护、康复动作监测、跌倒报警;
健身运动:动作标准度纠错、运动计数;
人机交互:体感游戏、智能设备手势控制。
PART/5
总结
极简框架,重构行为识别新范式
这款YOLOv7-SORT-LSTM框架,没有花哨的模型设计,却精准击中行为识别的核心痛点:
用 YOLO 搞定空间精准检测;
用 SORT 保障时序目标连贯;
用 LSTM 实现动作序列理解。
最终在精度、速度、鲁棒性、落地性上实现全面平衡,成为视频人体行为识别的最优轻量化方案。
未来团队计划加入多模态融合、空间注意力机制,进一步攻克相似动作、多人场景识别难题,让 AI 更懂人类的每一个动作!
有相关需求的你可以联系我们!
END
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
往期推荐
🔗
YOLO-TLA:一种基于 YOLOv5 的高效轻量级小目标检测模型
ViT-YOLO:基于Transformer的用于目标检测的YOLO算法
SSMA-YOLO:一种轻量级的 YOLO 模型,具备增强的特征提取与融合能力,适用于无人机航拍的船舶图像检测
LUD-YOLO:一种用于无人机的新型轻量级目标检测网络
Gold-YOLO:基于聚合与分配机制的高效目标检测器
Drone-YOLO:一种有效的无人机图像目标检测
「无人机+AI」“空中城管”
无人机+AI:光伏巡检自动化解决方案
无人机视角下多类别船舶检测及数量统计
机场项目:解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题
2PCNet:昼夜无监督域自适应目标检测(附原代码)
YOLO-S:小目标检测的轻量级、精确的类YOLO网络
大改Yolo框架 | 能源消耗极低的目标检测新框架(附论文下载)
改进的检测算法:用于高分辨率光学遥感图像目标检测