AI大模型用于感知融合-深圳市維司達科技有限公司

智能驾驶系统核心模块包括感知、预测、规划和控制，而Transformer大模型正加速其智能化进程。通过BEV+Transformer实现多传感器特征融合，显著提升感知能力并减少对高精地图的依赖。未来，基于Transformer的端到端大模型有望整合感知与决策，避免模块化误差，实现更高效、更智能的自动驾驶。

1.1 智能驾驶系统的核心模块与功能

智能驾驶系统可分为感知（Perception），预测（Prediction），规划（Planning），控制（Control）几个主要模块。

感知模块（Perception）主要负责车周信息感知和目标检测。感知模块输入各类传感器的数据，输出车道线，行人，车辆等的位置和轨迹等信息。感知算法的核心是融合各类传感器的信息，精准识别物体的类别与位置（需要 2D 还原为 3D）。

预测模块（Prediction）主要负责预测车周物体的运动，评估障碍物下一时刻可能的动作。预测模块输入车周物体和车辆自身的位置与速度等信息，输出物体运动轨迹的预测。

决策规划模块（Planning）主要负责计算车辆下一时刻的运动路径，向控制模块输出指令。规划与决策在开发环节往往结合在一起，包括三个层次：（1）全局路径规划（Route Planning），结合目的地和地图信息生成全局路径。（2）行为决策层（Behavioral Layer），结合感知模块的环境信息做具体行为决策。（3）运动规划（Motion Planning），结合行为决策和约束条件形成运动轨迹。

控制模块（Control）主要负责精准控制车辆按规划轨迹行驶。控制模块根据决策规划的路线，生成具体的加速、转向和制动指令，控制驱动系统，转向系统，制动系统和悬架系统。

智能驾驶系统的主要模块

Transformer 模型加速智能驾驶能力的提升。智能驾驶的本质是通过训练使车辆具有人类的驾驶能力，用神经网络模型替代基于规则的算法，可提升模型表现。（1）过去，一些智能驾驶的方案中感知，预测等模块采用了 CNN 和 RNN 等 AI模型；（2）现在，在 Transformer 模型引入 CV 领域和智能驾驶领域后，智驾能力的提升明显加速。例如，在感知模块，基于 BEV+Transformer 做特征融合，相较于传统的 CNN 模型具有更好的全局感知能力；在预测模块，有研究表明基于Transformer 的多模态轨迹预测相较于传统的 RNN 等神经网络也有更好的效果；在规划模块，基于 AI 模型的算法相比于基于大量规则的算法也更加简洁高效。（3）未来，基于 Transformer 有望实现感知决策一体化的大模型。相较于目前模块化的开发方式，可以避免级连误差，提升视觉信息表达，优化终端性能体验。AI 加速智能化第一步：头部玩家基于 BEV+Transformer 做特征融合，提升感知能力。车辆获取外部信息的传感器包括摄像头，激光雷达，毫米波雷达，超声波雷达等，不同传感器获取的信息特征不同，因此需要通过算法将各类数据融合。

过去多传感器融合采用后融合的方式，将传感器各自处理后的信息做基于统计学模型的加权运算，这样会出现数据损失。现在利用 Transformer 大模型可以提取特征向量，在统一的 3D 坐标系空间（BEV）内做特征融合，还可以结合时序信息进行动态识别，最后进行多任务输出，如静态语义地图、动态检测等。AI 大模型的加持下，智能驾驶的感知能力可以明显提升，优化 Corner Case 的处理，同时由于车辆生成了动态语义地图，可以减少对高精地图的依赖。

传统的智能驾驶方案（后融合）

基于感知大模型的智能驾驶方案（BEV+Transformer 做特征融合）

AI 加速智能化第二步：感知决策一体化，实现端到端的智能驾驶。目前采用的模块化的智能驾驶开发架构（感知—预测—规划—控制）优势在于简化研发团队分工，但是缺点在于会出现信息损失和累计误差问题，同时每个模块的优化目标不一致。我们认为，基于 Transformer 的模型的 Attenion 机制，未来智能驾驶有望统一感知与决策算法模块，实现端到端的大模型，即一个模型输入传感器数据，直接输出控制信号。端到端的智能驾驶可以避免累积错误或任务协调不足的问题。

基于端到端大模型的智能驾驶方案（感知决策一体化）

1.2 Transformer 大模型的演进与原理

Transformer 是谷歌 2017 年提出的 AI 大模型，最早用于自然语言处理领域。人工智能的核心技术是神经网络模型，较为主流和有效的神经网络模型主要包括卷积神经网络（CNN）、循环神经网络（RNN）、深度神经网络（DNN）和脉冲神经网络（SNN）等，主要应用于自然语言处理（NLP）和计算机视觉（CV）等领域。2017 年谷歌在论文《Attention is all you need》提出 Transformer 大模型，在众多自然语言处理问题中取得了非常好的效果。Transformer 模型属于 Encoder- Decoder 类模型，举例来说，Bert 侧重 Encoder，GPT2 侧重 Decoder。

Transformer 大模型发展历程

Transformer 大模型的演进和进化树

Transformer 模型的核心在于引入了多头注意力机制（Multi-Head Attention）。

注意力机制：通过找到查询（Query）键（Key）的相关性，去找到最合适的值（Value）。当 Q，K，V 的来源相同时，就是自注意力机制。

自注意力机制：向量矩阵 X 与可训练的三个权重参数 W(q)、W(k)、W(v)相乘得到 Q，K，V（如 q1=X1×W(q1)），然后通过 Q 和 K 的计算得到相似度，经过 Softmax 的归一化后与 V 相乘，计算加权求和。在智能驾驶的感知环节，自注意力机制可以理解为用于提取一类特征。

多头注意力机制：定义和训练多组权重参数矩阵 W，生成多组 Q、K、V，最后学习到不同的参数 Z1-Zn。通过形状变换进行合并，得到多头注意力的最终输出结果。在智能驾驶的感知环节，多头注意力机制可以理解为提取多个特征。

自注意力机制的计算

Transformer 模型包括编码器（Encoder）和解码器（Decoder）两个部分。编码器用于将序列转换为一组向量表示，包括多头注意力和前馈，解码器用于将向量解码为输出序列，包括多头注意力、编码器-解码器注意力和前馈。

（1）在编码器中，数据到达 Multi-Head Attention 时，会分为三部分输入（k、v、q），v 表示输入特征的向量，k 和 q 是用于计算输入向量之间彼此的关联程度。k、v、q 都是张量，是通过输入向量本身相应权重 W(q)、W(k)、W(v)获得的。多头对应多个特征，即为每个输入数据匹配多个 k、v、q，多头之间的计算互不影响。

（2）解码器中的 Multi-Head Attention 也是自注意力机制，和编码器的过程类似。

（3）连接 encoder 和 decoder 的 Multi-Head Attention 是非自注意力机制，这里的q 是来源于上一个 Output 经过一个 Masked Multi-Head Attention 和 Add&Norm 层之后的输出，k、v 来源于 encoder 编码器。

Transformer 模型的原理示意图

Transformer 模型通过注意力机制，整合了 CNN 易于并行化的优势和 RNN 模型可以捕捉长序列内的依赖关系的优势。神经网络模型可以分为前馈神经网络和反馈神经网络两类：（1）前馈神经网络中，信息从输入层开始输入，每层的神经元接收前一级输入，并输出到下一级，直至输出层。整个网络信息输入传输中无反馈（循环）。常见的前馈神经网络如卷积神经网络（CNN）。（2）反馈神经网络中，神经元不但可以接收其他神经元的信号，而且可以接收自己的反馈信号，常见的反馈神经网络如循环神经网络(RNN)。Transformer 模型利用注意力机制实现了并行化捕捉序列依赖，并且同时处理序列的每个位置的 Tokens。因此相对于CNN 模型，Transformer 模型可以捕捉长序列内的依赖关系，相对于 RNN 模型，Transformer 模型有更高的并行度，且能保存更多的前期数据。

前馈神经网络示意图反馈神经网络示意图

卷积神经网络（CNN）示意图循环神经网络（RNN）示意图

2020 年的 VIT 模型开拓了 Transformer 在 CV 领域的应用。Transformer 作为序列到序列学习的神经网络大模型，最早用于自然语言处理，如机器翻译等场景中。2020 年谷歌论文《 An Image Is Worth 16x16 Words: Transformers For ImageRecognition At Scale》提出的 VIT 模型（Vision Transformer）以 Transformer 为backbone，在 CV 领域起到了很好的效果。由于 Transformer 主要是处理序列，VIT 模型首先将图片分割成多个 patch，再将每个 patch 投影为固定长度的向量送入 Transformer，再进行 Encoder 等操作。相较于 CNN 中的卷积操作只能捕获局部信息，而不能建立全局图像的长距离连接，视觉 Transformer 的多头注意力通过 qkv 去捕捉全局的特征与特征之间的关系，可以获取更多上下文信息，扩大图像的全局感知。

VIT 模型整体架构

与 VIT 同年，特斯拉将 Transformer 引入自动驾驶领域。2020 年特斯拉重写智能驾驶软件架构，2021 年特斯拉 AI DAY 上展示了基于 Transformer 的 BEV 感知方案，核心是用 BEV+Transformer 将各个摄像头的信息进行特征提取和融合。目前主流用 BEV+Transformer 的方法包括 DETR3D，PETR，BEVFormer 等，以BEVFormer 为例，首先在 BEV 视角下重构特征空间，然后利用 Attention 提取和对齐时间和空间维度的特征（如图 19）。在摄像头视觉融合的基础上，Transformer 也可以实现摄像头视觉信息和激光雷达的多模融合。

目前主流用 BEV+Transformer 的方法

1.3 Transformer 在智能驾驶的具体应用

目前国内外头部企业利用 BEV+Transformer 做感知环节的特征融合。自特斯拉2020 年提出应用 BEV（Bird’s Eye View）鸟瞰图的 3D 坐标系空间，把各个摄像头的信息进行融合，在 BEV 空间内做特征融合已经成为视觉感知融合的前沿主流方案。BEV+Transformer 可分成五步:(1)将摄像头数据输入到共享的骨干网络（Backbone），提取每个摄像头的数据特征（feature）。(2)把所有的摄像头数据（跨摄）进行融合，并转换到 BEV 空间。(3)在 BEV 空间内，进行跨模态融合，将像素级的视觉数据和激光雷达点云进行融合。(4)进行时序融合，形成 4D 时空维度的感知信息。(5)多任务输出，如静态语义地图、动态检测等。目前，特斯拉，小鹏，理想与华为等企业利用 Transformer+BEV 等大模型进行视觉感知融合，可以识别车身周围的各类物体，构建动态实时地图，在理论上可以摆脱或者减轻对高精地图的依赖。

BEV 感知架构

特斯拉摄像头覆盖 360 度车身及各个摄像头信息融合形成鸟瞰图

Occupancy Network 升级到语义分割，进一步提升感知精度，同时避免碰撞。目标检测（Object Detection）和语义分割（Semantic Segmentation）是 CV 领域的概念，目标检测的任务是对输入的图像进行物体检测，标注物体在图像上的位置，以及该位置上物体属于哪个分类，语义分割的任务是对输入的图像进行逐像素的分类，标记出像素级别的物体。

（1）目标检测（Object Detection）：目标检测通用的结构为：Input →Backbone→ Neck → Head → Output。其中 Backbone 指特征提取网络，Head 指在特征提取后的特征图表示，Neck 位于主干和头部之间，用于提取一些更精细的特征。在特斯拉 2021 年 AI DAY 提出的神经网络架构中，Backbone:选择 RegNet 和ResNet 为主要架构， Neck: 选择 BiFPN ， Head: 选择 HydraNets （采用了类Transformer 的架构）。

特斯拉将 8 个摄像头的信息融合到 BEV 空间

HydraNets 采用类 Transformer 的架构

（2）语义分割（Semantic Segmentation）：语义分割是从粗推理到精推理的步骤，一般而言语义分割需要先分类，然后本地化/检测，最后通过对每个像素进行密集的预测、推断标签来实现细粒度的推理。特斯拉 2022 年提出 OccupancyNetwork（占用网络），将三维空间划分成体素 voxel，对有物体的 voxel 赋值为 1，表示 voxel 被物体占据；没有物体的 voxel 被赋值为 0，在分割后进一步识别和判断。Occupancy 网络最核心的升级正在于从目标检测（Object Detection）升级到语义分割（Semantic Segmentation）。一方面对于白名单的依赖度降低，因此识别异性物体的能力大大增强，另一方面克服了目标检测方法对于目标的外形高度敏感的问题。在特斯拉之后，理想汽车在 2023 年双能战略发布会上也表示利用Occupancy 网络识别通用障碍物，华为提出的 GOD 网络也是基于 Occupancy 的框架。

特斯拉 Occupancy Network 结构示意图

未来有望基于 Transformer 大模型实现端到端的辅助驾驶。在模块化的算法框架下，辅助驾驶方案分成感知 — 预测 — 规划 — 执行各个环节，目前BEV+Transformer 主要用来做感知环节的特征融合，以替代后融合的方案，提升感知能力并摆脱对高精地图的依赖。但整体而言，感知和预测模块的数据会再输入到规划决策模块，再通过执行模块的计算输出指令，各个模块之间仍然是分离的。
特斯拉 FSD betaV12 版本有望率先实现端到端的大模型，远期国内车企也有望实现端到端。我们以 CVPR2023 最佳论文《Planning-oriented Autonomous Driving》提出的算法框架 UniAD 为例解释端到端智能驾驶的实现方式。UniAD 由 2 个感知模块，2个预测模块和 1 个规划模块组成：

（1） TrackFormer：用于动态元素的特征提取，例如车辆和行人的帧间跟踪。

（2） MapFormer：用于静态元素的特征提取，以及实例级的地图预测。

（3） MotionFormer：将动态与静态元素的特征融合，进行长时序的轨迹预测。

（4） OccFormer：基于较短时序的全场景 BEV，进行实例级的预测。

（5） Planner：基于自车 query 的轨迹规划和 Occ 的碰撞优化进行规划。

可以从图中看到，感知和预测模块都是基于 Transformer 架构，查询向量 Q 将各个模块串联起来，其中，TrackFormer 的 Query 会一直传递到 Planner 模块，以此实现了全栈 Transformer 的端到端模型。

CVPR2023 最佳论文提出的端到端的辅助驾驶算法框架 UniAD

什么是AI大模型应用开发工程师？

如果说AI大模型是蕴藏着巨大能量的“后台超级能力”，那么AI大模型应用开发工程师就是将这种能量转化为实用工具的执行者。

AI大模型应用开发工程师是基于AI大模型，设计开发落地业务的应用工程师。

这个职业的核心价值，在于打破技术与用户之间的壁垒，把普通人难以理解的算法逻辑、模型参数，转化为人人都能轻松操作的产品形态。

无论是日常写作时用到的AI文案生成器、修图软件里的智能美化功能，还是办公场景中的自动记账工具、会议记录用的语音转文字APP，这些看似简单的应用背后，都是应用开发工程师在默默搭建技术与需求之间的桥梁。

他们不追求创造全新的大模型，而是专注于让已有的大模型“听懂”业务需求，“学会”解决具体问题，最终形成可落地、可使用的产品。

CSDN粉丝独家福利

给大家整理了一份AI大模型全套学习资料，这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取【保证100%免费】

AI大模型应用开发工程师的核心职责

需求分析与拆解是工作的起点，也是确保开发不偏离方向的关键。

应用开发工程师需要直接对接业务方，深入理解其核心诉求——不仅要明确“要做什么”，更要厘清“为什么要做”以及“做到什么程度算合格”。

在此基础上，他们会将模糊的业务需求拆解为具体的技术任务，明确每个环节的执行标准，并评估技术实现的可行性，同时定义清晰的核心指标，为后续开发、测试提供依据。

这一步就像建筑前的图纸设计，若出现偏差，后续所有工作都可能白费。

技术选型与适配是衔接需求与开发的核心环节。

工程师需要根据业务场景的特点，选择合适的基础大模型、开发框架和工具——不同的业务对模型的响应速度、精度、成本要求不同，选型的合理性直接影响最终产品的表现。

同时，他们还要对行业相关数据进行预处理，通过提示词工程优化模型输出，或在必要时进行轻量化微调，让基础模型更好地适配具体业务。

此外，设计合理的上下文管理规则确保模型理解连贯需求，建立敏感信息过滤机制保障数据安全，也是这一环节的重要内容。

应用开发与对接则是将方案转化为产品的实操阶段。

工程师会利用选定的开发框架构建应用的核心功能，同时联动各类外部系统——比如将AI模型与企业现有的客户管理系统、数据存储系统打通，确保数据流转顺畅。

在这一过程中，他们还需要配合设计团队打磨前端交互界面，让技术功能以简洁易懂的方式呈现给用户，实现从技术方案到产品形态的转化。

测试与优化是保障产品质量的关键步骤。

工程师会开展全面的功能测试，找出并修复开发过程中出现的漏洞，同时针对模型的响应速度、稳定性等性能指标进行优化。

安全合规性也是测试的重点，需要确保应用符合数据保护、隐私安全等相关规定。

此外，他们还会收集用户反馈，通过调整模型参数、优化提示词等方式持续提升产品体验，让应用更贴合用户实际使用需求。

部署运维与迭代则贯穿产品的整个生命周期。

工程师会通过云服务器或私有服务器将应用部署上线，并实时监控运行状态，及时处理突发故障，确保应用稳定运行。

随着业务需求的变化，他们还需要对应用功能进行迭代更新，同时编写完善的开发文档和使用手册，为后续的维护和交接提供支持。

薪资情况与职业价值

市场对这一职业的高度认可，直接体现在薪资待遇上。

据猎聘最新在招岗位数据显示，AI大模型应用开发工程师的月薪最高可达60k。

在AI技术加速落地的当下，这种“技术+业务”的复合型能力尤为稀缺，让该职业成为当下极具吸引力的就业选择。

AI大模型应用开发工程师是AI技术落地的关键桥梁。

他们用专业能力将抽象的技术转化为具体的产品，让大模型的价值真正渗透到各行各业。

随着AI场景化应用的不断深化，这一职业的重要性将更加凸显，也必将吸引更多人才投身其中，推动AI技术更好地服务于社会发展。

AI大模型用于感知融合

CSDN粉丝独家福利

CSDN粉丝独家福利

如何用spaCy打造智能NPC对话：游戏开发者的NLP终极指南

3分钟解决Zigbee2MQTT设备离线：fromZigbee转换器异常深度排查指南

5分钟快速上手react-native-side-menu：从零开始的移动端导航菜单

告别手忙脚乱：3步实现Apex Legends精准射击的游戏辅助工具

Discord Mass DM GO多线程优化：如何管理数千个并发账户的最佳策略

5个技巧让Void编辑器React项目构建提速60%：从配置到部署全流程优化