news 2026/4/23 17:17:08

顶刊TPAMI 2025!北大大疆同济提出HP-Net:基于热图池化的视频行为识别新范式

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
顶刊TPAMI 2025!北大大疆同济提出HP-Net:基于热图池化的视频行为识别新范式

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

Heatmap Pooling for Action Recognition from RGB Videos

Mengyuan Liu, Jinfu Liu, Yongkang Jiang, Bin He
Peking University, DJI Technology Co., Ltd., TongJi University

支持单位:北京大学,大疆,同济大学
论文:https://arxiv.org/abs/2512.03837
代码:https://github.com/liujf69/HPNet-Action

1 HP-Net 到底解决什么问题?

缓解视频行为识别现有模态特征的缺陷:
(1) 原始视频帧背景复杂、噪声多
(2) 人体姿态信息缺失
(3) 人体热图信息冗余
(4) 基于反馈池化机制,均衡热图特征冗余和缺失

连接视频人体姿态估计和行为识别任务:
(1) 适用于受控实验、家居安防、空中无人机等环境
(2) 关键指标全面实现 SOTA 性能
(3) 支持RGB、文本、热图等多模态融合,实现多模态行为识别
(4) 与人体姿态估计正交,支持不同人体姿态估计网络
(5) 与视频人体检测正交,支持不同视频人体检测网络

2 HP-Net 源自什么动机?

在RGB视频行为识别中,一种常见的方式是获取人体姿态关节点,通过建模姿态的时空关系来实现人体行为识别。从RGB视频中估计人体姿态,存在原始RGB视频帧到离散姿态点的映射和转换,这一过程往往伴随着信息压缩和信息丢失的问题。如何合理利用姿态估计过程中产生的各种特征,例如不同阶段和不同分辨率的热图特征,是一个值得思考和探索的问题。人体热图蕴含着大量人体运动的相关细节,同时也具有大量的冗余信息。论文的作者基于反馈的思想,首先从热图中估计人体姿态关键点,接着使用估计的人体姿态点来反馈池化不同阶段和不同尺度的热图,获取鲁棒、结构简洁和信息丰富的热图池化特征,用于视频人体行为识别。相比于直接使用估计的人体姿态,基于反馈池化模块获取的热图池化特征,保留了更多关于人体运动的细节,具有更高维度的语义信息,与RGB、文本等模态具有互补性,适合用于视频行为识别等下游任务。同时,为了实现更全面和鲁棒的视频行为识别,作者提出了空间-运动协同学习模块和文本细化调制模块,将提取的热图池化特征和RGB、文本等特征进行多模态融合,实现了多模态行为识别。

3 HP-Net核心模块解读

3.1 反馈池化模块

反馈池化模块使用RGB视频帧作为输入,首先通过预训练人体姿态模型获取不同阶段和不同尺度的热图特征,接着通过的方法从热图中选取概率最高的坐标位置来估计人体姿态关键点,最后使用估计的人体姿态点来反馈池化特定范围的热图,获取鲁棒、结构简洁和信息丰富的热图池化特征


3.2 空间-运动协同学习模块

空间-运动协同学习模块使用热图池化特征作为输入,通过转换模块形成空间特征和运动特征,接着使用三个独立的拓扑模型来分别建模原始热图池化特征,空间特征和运动特征,最后通过的方式保留空间-运动热图池化特征。空间-运动协同学习模块主要通过三个独立的拓扑模型(GCN或Transformer),来全面建模反馈池化模块获取的热图池化特征,同时设立不同的辅助损失来监督三个拓扑模型的有效训练。

3.3 文本细化调制模块

文本细化调制模块使用人体行为类别的文本作为输入,首先使用预训练文本编码器来编码文本特征,接着使用空间-运动协同学习模块获取的热图池化特征,来细化调制文本特征,从而获取人体运动信息丰富的文本特征。在具体实现上,文本细化调制模块会使用参数不共享的网络,从热图池化特征中获取缩放因子和移位因子,来动态调整文本特征。此外,作者还通过两个独立的投影层、逐通道减法和逐元素乘法来细化文本特征。最后,作者通过残差连接来融合原始文本特征,形成最终描述人体运动信息的文本特征

3.4 多模态行为识别

在作者提出的热图池化网络中,会进行RGB视频、文本和热图池化特征的多模态融合,充分利用多种模态的优势和互补性,实现鲁棒和全面的多模态行为识别。在具体实现中,作者首先会通过视频Encoder从裁剪的人体RGB帧中提取RGB视频特征,接着会将RGB视频特征和人体运动信息丰富的文本特征进行多模态融合,获取行为识别分类得分。此外,作者使用了多流集成技术,将来自单流热图池化特征和多模态融合后的分类得分进行集成,实现了多流集成视频行为识别。

实验数据

作者在四个权威的公开视频数据集上进行了实验:NTU-RGB+D 60,NTU-RGB+D 120,UAV-Human和Toyota-Smarthome,涵盖受控实验、家居安防、空中无人机等场景,实现了全面的SOTA识别性能。

作者还探索了热图池化特征在GCN和Transformer架构建模的有效性,并与直接通过姿态估计网络、深度传感器获取的2D、3D姿态进行了公平对比,还通过T-SNE特征可视化等方法,全面论证了所提热图池化特征的有效性、泛化性和鲁棒性。

此外,作者还探索了热图池化网络在过曝、低光、遮挡等极端场景的表现性,同时展示了多流集成技术在单个样本识别和不同模态集成下的识别准确率。

相关讨论

作者创新性地回顾姿态估计和行为识别的关联,提出使用反馈池化机制来高效地获取信息丰富、鲁棒和结构简洁的热图池化特征,并与RGB、文本模态进行了有效融合,大量实验证明了热图池化网络的有效性、先进性和泛化性。作者对人体热图进行反馈池化的思想,不仅适用于视频人体行为识别任务,还可以迁移至视频人体手势识别、视频人体姿态估计等相关人体运动分析任务。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ICCV 2025 论文和代码下载

在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 11:17:13

D3.js标签智能避让:从原理到实战的完整解决方案

D3.js标签智能避让:从原理到实战的完整解决方案 【免费下载链接】d3 Bring data to life with SVG, Canvas and HTML. :bar_chart::chart_with_upwards_trend::tada: 项目地址: https://gitcode.com/gh_mirrors/d3/d3 在数据可视化项目中,标签重叠…

作者头像 李华
网站建设 2026/4/23 12:49:16

高效部署gemma.cpp:模型转换技术深度指南

高效部署gemma.cpp:模型转换技术深度指南 【免费下载链接】gemma.cpp 适用于 Google Gemma 模型的轻量级独立 C 推理引擎。 项目地址: https://gitcode.com/GitHub_Trending/ge/gemma.cpp 在AI模型部署实践中,从Python训练环境到C推理引擎的模型转…

作者头像 李华
网站建设 2026/4/23 13:36:04

Gobot框架终极指南:从零开始构建你的第一个机器人项目

在物联网技术快速发展的今天,机器人编程已成为连接数字世界与物理世界的重要桥梁。面对众多硬件平台和复杂的设备集成,开发者需要一个统一且高效的解决方案。这就是Gobot框架的价值所在——它让复杂的机器人开发变得简单直观。 【免费下载链接】gobot Go…

作者头像 李华
网站建设 2026/4/23 12:49:21

AST反混淆技术:从混乱代码到清晰逻辑的解码之道

前言在软件安全、代码分析和前端工程领域,我们常常会遇到被故意模糊化的代码——变量名变成无意义的a、b、c,逻辑被拆解得支离破碎,字符串被加密成乱码。这种代码混淆技术保护了知识产权,却也阻碍了正常的分析、调试和学习。AST反…

作者头像 李华
网站建设 2026/4/23 12:46:24

PingFangSC字体完整指南:如何在3分钟内打造专业级Web排版体验

PingFangSC字体完整指南:如何在3分钟内打造专业级Web排版体验 【免费下载链接】PingFangSC PingFangSC字体包文件、苹果平方字体文件,包含ttf和woff2格式 项目地址: https://gitcode.com/gh_mirrors/pi/PingFangSC 您是否曾因网页字体在不同设备上…

作者头像 李华
网站建设 2026/4/23 14:15:12

为什么说传统SLAM已死?

点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达作者:Immortalqx等人 | 编辑:计算机视觉工坊本文转载自公众号:计算机视觉工坊作者:Immortalqx等人连接:https:…

作者头像 李华