PETRV2-BEV模型实战：xtreme1数据集训练指南-深圳市維司達科技有限公司

PETRV2-BEV模型实战：xtreme1数据集训练指南

1. 引言

随着自动驾驶技术的快速发展，基于视觉的三维目标检测方法逐渐成为研究热点。PETR系列模型通过将相机视角（perspective view）特征与空间位置编码结合，在Bird's Eye View（BEV）空间中实现高精度3D目标检测，其中PETRV2作为其升级版本，凭借更强的特征提取能力和更优的网络结构设计，在NuScenes等主流数据集上表现出色。

本文聚焦于PETRV2-BEV模型在xtreme1数据集上的完整训练流程，涵盖环境配置、依赖下载、数据预处理、模型训练、评估与推理全过程，并特别说明如何借助星图AI算力平台高效完成模型迭代。文章内容适用于有一定深度学习基础、希望快速上手BEV感知任务的开发者和研究人员。

2. 准备环境

2.1 进入paddle3d_env conda环境

首先确保已安装PaddlePaddle相关依赖及Paddle3D框架。本实验基于paddle3d_env这一专用Conda虚拟环境进行操作：

conda activate paddle3d_env

该环境应包含PaddlePaddle 2.4+版本以及Paddle3D开发库。若尚未搭建环境，请参考官方文档完成安装。

3. 下载依赖

3.1 下载预训练权重

为加速训练过程并提升收敛效果，使用在NuScenes全量数据上预训练的PETRV2模型参数作为初始化权重：

wget -O /root/workspace/model.pdparams https://paddle3d.bj.bcebos.com/models/petr/petrv2_vovnet_gridmask_p4_800x320/model.pdparams

此权重文件采用VoVNet主干网络，配合GridMask增强策略，支持输入分辨率为800×320的图像序列。

3.2 下载nuscenes v1.0-mini数据集

为验证流程正确性，先以小型数据集v1.0-mini进行测试：

wget -O /root/workspace/v1.0-mini.tgz https://www.nuscenes.org/data/v1.0-mini.tgz mkdir -p /root/workspace/nuscenes tar -xf /root/workspace/v1.0-mini.tgz -C /root/workspace/nuscenes

解压后目录结构需符合Paddle3D要求，包含samples,sweeps,maps,annotations等子目录。

4. 训练nuscenes v1.0-mini数据集（验证流程）

4.1 准备数据集

进入Paddle3D项目根目录，生成适用于PETRV2的数据信息文件：

cd /usr/local/Paddle3D rm /root/workspace/nuscenes/petr_nuscenes_annotation_* -f python3 tools/create_petr_nus_infos.py --dataset_root /root/workspace/nuscenes/ --save_dir /root/workspace/nuscenes/ --mode mini_val

该脚本会解析原始JSON标注，生成用于训练的.pkl格式info文件，如petr_nuscenes_annotation_train.pkl和petr_nuscenes_annotation_val.pkl。

4.2 测试精度（加载预训练模型）

在开始训练前，可先对预训练模型在mini集上做一次评估，确认加载逻辑无误：

python tools/evaluate.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/

输出结果如下：

mAP: 0.2669 mATE: 0.7448 mASE: 0.4621 mAOE: 1.4553 mAVE: 0.2500 mAAE: 1.0000 NDS: 0.2878 Eval time: 5.8s Per-class results: Object Class AP ATE ASE AOE AVE AAE car 0.446 0.626 0.168 1.735 0.000 1.000 truck 0.381 0.500 0.199 1.113 0.000 1.000 bus 0.407 0.659 0.064 2.719 0.000 1.000 trailer 0.000 1.000 1.000 1.000 1.000 1.000 construction_vehicle 0.000 1.000 1.000 1.000 1.000 1.000 pedestrian 0.378 0.737 0.263 1.259 0.000 1.000 motorcycle 0.356 0.748 0.314 1.410 0.000 1.000 bicycle 0.063 0.760 0.236 1.862 0.000 1.000 traffic_cone 0.637 0.418 0.377 nan nan nan barrier 0.000 1.000 1.000 1.000 nan nan

提示：由于mini集样本较少，仅用于调试流程，不反映真实性能。

4.3 开始训练

启动正式训练任务，设置关键超参：

python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/ \ --epochs 100 \ --batch_size 2 \ --log_interval 10 \ --learning_rate 1e-4 \ --save_interval 5 \ --do_eval

训练过程中每5个epoch保存一次模型，并在验证集上执行评估。

4.4 可视化训练曲线

使用VisualDL查看Loss和Metric变化趋势：

visualdl --logdir ./output/ --host 0.0.0.0

4.5 端口转发访问可视化界面

若在远程服务器运行，可通过SSH隧道将本地端口映射至服务器：

ssh -p 31264 -L 0.0.0.0:8888:localhost:8040 root@gpu-09rxs0pcu2.ssh.gpu.csdn.net

随后在浏览器访问http://localhost:8888即可查看训练日志图表。

4.6 导出PaddleInference模型

训练完成后导出静态图模型，便于部署：

rm -rf /root/workspace/nuscenes_release_model mkdir -p /root/workspace/nuscenes_release_model python tools/export.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model output/best_model/model.pdparams \ --save_dir /root/workspace/nuscenes_release_model

导出内容包括model.pdmodel、model.pdiparams和deploy.yaml，可用于后续推理服务。

4.7 运行DEMO演示结果

最后运行可视化DEMO，直观展示检测效果：

python tools/demo.py /root/workspace/nuscenes/ /root/workspace/nuscenes_release_model nuscenes

程序将随机选取场景绘制BEV检测框，验证模型可用性。

5. 训练xtreme1数据集（核心实践）

xtreme1是一个面向极端天气条件下的自动驾驶感知数据集，适合作为鲁棒性测试场景。以下步骤指导如何迁移PETRV2模型至xtreme1数据集。

5.1 准备数据集

假设xtreme1数据已下载至/root/workspace/xtreme1_nuscenes_data目录下，执行定制化info生成脚本：

cd /usr/local/Paddle3D rm /root/workspace/xtreme1_nuscenes_data/petr_nuscenes_annotation_* -f python3 tools/create_petr_nus_infos_from_xtreme1.py /root/workspace/xtreme1_nuscenes_data/

该脚本适配了xtreme1特有的路径结构与标注格式，输出兼容PETRV2的训练所需.pkl文件。

5.2 测试精度（零样本迁移）

直接加载原NuScenes预训练模型，在xtreme1上评估泛化能力：

python tools/evaluate.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/xtreme1_nuscenes_data/

输出结果如下：

mAP: 0.0000 mATE: 1.0703 mASE: 0.8296 mAOE: 1.0807 mAVE: 0.6250 mAAE: 1.0000 NDS: 0.0545 Eval time: 0.5s Per-class results: Object Class AP ATE ASE AOE AVE AAE car 0.000 1.308 0.232 2.074 0.000 1.000 truck 0.000 1.114 0.621 0.042 0.000 1.000 bus 0.000 1.000 1.000 1.000 1.000 1.000 trailer 0.000 1.000 1.000 1.000 1.000 1.000 construction_vehicle 0.000 1.000 1.000 1.000 1.000 1.000 pedestrian 0.000 1.280 0.444 1.611 0.000 1.000 motorcycle 0.000 1.000 1.000 1.000 1.000 1.000 bicycle 0.000 1.000 1.000 1.000 1.000 1.000 traffic_cone 0.000 1.000 1.000 nan nan nan barrier 0.000 1.000 1.000 1.000 nan nan

分析：所有类别AP均为0，表明预训练模型无法识别xtreme1中的对象，必须重新训练。

5.3 启动训练任务

使用相同配置启动xtreme1上的微调训练：

python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/xtreme1_nuscenes_data/ \ --epochs 100 \ --batch_size 2 \ --log_interval 10 \ --learning_rate 1e-4 \ --save_interval 5 \ --do_eval

建议根据实际GPU资源调整batch_size，若显存不足可降至1，并启用梯度累积。

5.4 导出xtreme1专用推理模型

训练结束后导出适配xtreme1的最终模型：

rm -rf /root/workspace/xtreme1_release_model mkdir /root/workspace/xtreme1_release_model python tools/export.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model output/best_model/model.pdparams \ --save_dir /root/workspace/xtreme1_release_model

5.5 运行xtreme1专属DEMO

执行推理并可视化结果：

python tools/demo.py /root/workspace/xtreme1_nuscenes_data/ /root/workspace/xtreme1_release_model xtreme1

注意传入正确的数据类型标识xtreme1，以便程序加载对应预处理逻辑。

6. 总结

本文系统介绍了PETRV2-BEV模型在xtreme1数据集上的完整训练流程，覆盖从环境准备、数据预处理到模型训练、评估与部署的各个环节。主要收获包括：

流程可复现性强：基于Paddle3D框架提供的工具链，实现了端到端的训练闭环；
跨数据集迁移有效：通过修改数据info生成脚本，即可适配新数据集；
便于工程落地：支持模型导出与DEMO验证，满足实际部署需求；
适合极端场景研究：xtreme1作为挑战性数据集，有助于提升模型鲁棒性。

未来可在以下方向进一步优化：

使用更大规模数据联合训练
尝试不同的主干网络（如ResNet、Swin Transformer）
引入时间序列建模提升动态物体预测精度

掌握此类BEV检测模型的训练方法，对于构建下一代自动驾驶感知系统具有重要意义。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

PETRV2-BEV模型实战：xtreme1数据集训练指南