智能驾驶系统核心模块包括感知、预测、规划和控制,而Transformer大模型正加速其智能化进程。通过BEV+Transformer实现多传感器特征融合,显著提升感知能力并减少对高精地图的依赖。未来,基于Transformer的端到端大模型有望整合感知与决策,避免模块化误差,实现更高效、更智能的自动驾驶。
1.1 智能驾驶系统的核心模块与功能
智能驾驶系统可分为感知(Perception),预测(Prediction),规划(Planning),控制(Control)几个主要模块。
感知模块(Perception)主要负责车周信息感知和目标检测。感知模块输入各类传感器的数据,输出车道线,行人,车辆等的位置和轨迹等信息。感知算法的核心是融合各类传感器的信息,精准识别物体的类别与位置(需要 2D 还原为 3D)。
预测模块(Prediction)主要负责预测车周物体的运动,评估障碍物下一时刻可能的动作。预测模块输入车周物体和车辆自身的位置与速度等信息,输出物体运动轨迹的预测。
决策规划模块(Planning)主要负责计算车辆下一时刻的运动路径,向控制模块输出指令。规划与决策在开发环节往往结合在一起,包括三个层次:(1)全局路径规划(Route Planning),结合目的地和地图信息生成全局路径。(2)行为决策层(Behavioral Layer),结合感知模块的环境信息做具体行为决策。(3)运动规划(Motion Planning),结合行为决策和约束条件形成运动轨迹。
控制模块(Control)主要负责精准控制车辆按规划轨迹行驶。控制模块根据决策规划的路线,生成具体的加速、转向和制动指令,控制驱动系统,转向系统,制动系统和悬架系统。
智能驾驶系统的主要模块
Transformer 模型加速智能驾驶能力的提升。智能驾驶的本质是通过训练使车辆具有人类的驾驶能力,用神经网络模型替代基于规则的算法,可提升模型表现。(1)过去,一些智能驾驶的方案中感知,预测等模块采用了 CNN 和 RNN 等 AI模型;(2)现在,在 Transformer 模型引入 CV 领域和智能驾驶领域后,智驾能力的提升明显加速。例如,在感知模块,基于 BEV+Transformer 做特征融合,相较于传统的 CNN 模型具有更好的全局感知能力;在预测模块,有研究表明基于Transformer 的多模态轨迹预测相较于传统的 RNN 等神经网络也有更好的效果;在规划模块,基于 AI 模型的算法相比于基于大量规则的算法也更加简洁高效。(3)未来,基于 Transformer 有望实现感知决策一体化的大模型。相较于目前模块化的开发方式,可以避免级连误差,提升视觉信息表达,优化终端性能体验。AI 加速智能化第一步:头部玩家基于 BEV+Transformer 做特征融合,提升感知能力。车辆获取外部信息的传感器包括摄像头,激光雷达,毫米波雷达,超声波雷达等,不同传感器获取的信息特征不同,因此需要通过算法将各类数据融合。
过去多传感器融合采用后融合的方式,将传感器各自处理后的信息做基于统计学模型的加权运算,这样会出现数据损失。现在利用 Transformer 大模型可以提取特征向量,在统一的 3D 坐标系空间(BEV)内做特征融合,还可以结合时序信息进行动态识别,最后进行多任务输出,如静态语义地图、动态检测等。AI 大模型的加持下,智能驾驶的感知能力可以明显提升,优化 Corner Case 的处理,同时由于车辆生成了动态语义地图,可以减少对高精地图的依赖。
传统的智能驾驶方案(后融合)
基于感知大模型的智能驾驶方案(BEV+Transformer 做特征融合)
AI 加速智能化第二步:感知决策一体化,实现端到端的智能驾驶。目前采用的模块化的智能驾驶开发架构(感知—预测—规划—控制)优势在于简化研发团队分工,但是缺点在于会出现信息损失和累计误差问题,同时每个模块的优化目标不一致。我们认为,基于 Transformer 的模型的 Attenion 机制,未来智能驾驶有望统一感知与决策算法模块,实现端到端的大模型,即一个模型输入传感器数据,直接输出控制信号。端到端的智能驾驶可以避免累积错误或任务协调不足的问题。
基于端到端大模型的智能驾驶方案(感知决策一体化)
1.2 Transformer 大模型的演进与原理
Transformer 是谷歌 2017 年提出的 AI 大模型,最早用于自然语言处理领域。人工智能的核心技术是神经网络模型,较为主流和有效的神经网络模型主要包括卷积神经网络(CNN)、循环神经网络(RNN)、深度神经网络(DNN)和脉冲神经网络(SNN)等,主要应用于自然语言处理(NLP)和计算机视觉(CV)等领域。2017 年谷歌在论文《Attention is all you need》提出 Transformer 大模型,在众多自然语言处理问题中取得了非常好的效果。Transformer 模型属于 Encoder- Decoder 类模型,举例来说,Bert 侧重 Encoder,GPT2 侧重 Decoder。
Transformer 大模型发展历程
Transformer 大模型的演进和进化树
Transformer 模型的核心在于引入了多头注意力机制(Multi-Head Attention)。
注意力机制:通过找到查询(Query)键(Key)的相关性,去找到最合适的值(Value)。当 Q,K,V 的来源相同时,就是自注意力机制。
自注意力机制:向量矩阵 X 与可训练的三个权重参数 W(q)、W(k)、W(v)相乘得到 Q,K,V(如 q1=X1×W(q1)),然后通过 Q 和 K 的计算得到相似度,经过 Softmax 的归一化后与 V 相乘,计算加权求和。在智能驾驶的感知环节,自注意力机制可以理解为用于提取一类特征。
多头注意力机制:定义和训练多组权重参数矩阵 W,生成多组 Q、K、V,最后学习到不同的参数 Z1-Zn。通过形状变换进行合并,得到多头注意力的最终输出结果。在智能驾驶的感知环节,多头注意力机制可以理解为提取多个特征。
自注意力机制的计算
Transformer 模型包括编码器(Encoder)和解码器(Decoder)两个部分。编码器用于将序列转换为一组向量表示,包括多头注意力和前馈,解码器用于将向量解码为输出序列,包括多头注意力、编码器-解码器注意力和前馈。
(1)在编码器中,数据到达 Multi-Head Attention 时,会分为三部分输入(k、v、q),v 表示输入特征的向量,k 和 q 是用于计算输入向量之间彼此的关联程度。k、v、q 都是张量,是通过输入向量本身相应权重 W(q)、W(k)、W(v)获得的。多头对应多个特征,即为每个输入数据匹配多个 k、v、q,多头之间的计算互不影响。
(2)解码器中的 Multi-Head Attention 也是自注意力机制,和编码器的过程类似。
(3)连接 encoder 和 decoder 的 Multi-Head Attention 是非自注意力机制,这里的q 是来源于上一个 Output 经过一个 Masked Multi-Head Attention 和 Add&Norm 层之后的输出,k、v 来源于 encoder 编码器。
Transformer 模型的原理示意图
Transformer 模型通过注意力机制,整合了 CNN 易于并行化的优势和 RNN 模型可以捕捉长序列内的依赖关系的优势。神经网络模型可以分为前馈神经网络和反馈神经网络两类:(1)前馈神经网络中,信息从输入层开始输入,每层的神经元接收前一级输入,并输出到下一级,直至输出层。整个网络信息输入传输中无反馈(循环)。常见的前馈神经网络如卷积神经网络(CNN)。(2)反馈神经网络中,神经元不但可以接收其他神经元的信号,而且可以接收自己的反馈信号,常见的反馈神经网络如循环神经网络(RNN)。Transformer 模型利用注意力机制实现了并行化捕捉序列依赖,并且同时处理序列的每个位置的 Tokens。因此相对于CNN 模型,Transformer 模型可以捕捉长序列内的依赖关系,相对于 RNN 模型,Transformer 模型有更高的并行度,且能保存更多的前期数据。
前馈神经网络示意图 反馈神经网络示意图
卷积神经网络(CNN)示意图 循环神经网络(RNN)示意图
2020 年的 VIT 模型开拓了 Transformer 在 CV 领域的应用。Transformer 作为序列到序列学习的神经网络大模型,最早用于自然语言处理,如机器翻译等场景中。2020 年 谷 歌 论 文 《 An Image Is Worth 16x16 Words: Transformers For ImageRecognition At Scale》提出的 VIT 模型(Vision Transformer)以 Transformer 为backbone,在 CV 领域起到了很好的效果。由于 Transformer 主要是处理序列,VIT 模型首先将图片分割成多个 patch,再将每个 patch 投影为固定长度的向量送入 Transformer,再进行 Encoder 等操作。相较于 CNN 中的卷积操作只能捕获局部信息,而不能建立全局图像的长距离连接,视觉 Transformer 的多头注意力通过 qkv 去捕捉全局的特征与特征之间的关系,可以获取更多上下文信息,扩大图像的全局感知。
VIT 模型整体架构
与 VIT 同年,特斯拉将 Transformer 引入自动驾驶领域。2020 年特斯拉重写智能驾驶软件架构,2021 年特斯拉 AI DAY 上展示了基于 Transformer 的 BEV 感知方案,核心是用 BEV+Transformer 将各个摄像头的信息进行特征提取和融合。目前主流用 BEV+Transformer 的方法包括 DETR3D,PETR,BEVFormer 等,以BEVFormer 为例,首先在 BEV 视角下重构特征空间,然后利用 Attention 提取和对齐时间和空间维度的特征(如图 19)。在摄像头视觉融合的基础上,Transformer 也可以实现摄像头视觉信息和激光雷达的多模融合。
目前主流用 BEV+Transformer 的方法
1.3 Transformer 在智能驾驶的具体应用
目前国内外头部企业利用 BEV+Transformer 做感知环节的特征融合。自特斯拉2020 年提出应用 BEV(Bird’s Eye View)鸟瞰图的 3D 坐标系空间,把各个摄像头的信息进行融合,在 BEV 空间内做特征融合已经成为视觉感知融合的前沿主流方案。BEV+Transformer 可分成五步:(1)将摄像头数据输入到共享的骨干网络(Backbone),提取每个摄像头的数据特征(feature)。(2)把所有的摄像头数据(跨摄)进行融合,并转换到 BEV 空间。(3)在 BEV 空间内,进行跨模态融合,将像素级的视觉数据和激光雷达点云进行融合。(4)进行时序融合,形成 4D 时空维度的感知信息。(5)多任务输出,如静态语义地图、动态检测等。目前,特斯拉,小鹏,理想与华为等企业利用 Transformer+BEV 等大模型进行视觉感知融合,可以识别车身周围的各类物体,构建动态实时地图,在理论上可以摆脱或者减轻对高精地图的依赖。
BEV 感知架构
特斯拉摄像头覆盖 360 度车身及各个摄像头信息融合形成鸟瞰图
Occupancy Network 升级到语义分割,进一步提升感知精度,同时避免碰撞。目标检测(Object Detection)和语义分割(Semantic Segmentation)是 CV 领域的概念,目标检测的任务是对输入的图像进行物体检测,标注物体在图像上的位置,以及该位置上物体属于哪个分类,语义分割的任务是对输入的图像进行逐像素的分类,标记出像素级别的物体。
(1)目标检测(Object Detection):目标检测通用的结构为:Input →Backbone→ Neck → Head → Output。其中 Backbone 指特征提取网络,Head 指在特征提取后的特征图表示,Neck 位于主干和头部之间,用于提取一些更精细的特征。在特斯拉 2021 年 AI DAY 提出的神经网络架构中,Backbone:选择 RegNet 和ResNet 为 主 要 架 构 , Neck: 选 择 BiFPN , Head: 选 择 HydraNets ( 采 用 了 类Transformer 的架构)。
特斯拉将 8 个摄像头的信息融合到 BEV 空间
HydraNets 采用类 Transformer 的架构
(2)语义分割(Semantic Segmentation):语义分割是从粗推理到精推理的步骤,一般而言语义分割需要先分类,然后本地化/检测,最后通过对每个像素进行密集的预测、推断标签来实现细粒度的推理。特斯拉 2022 年提出 OccupancyNetwork(占用网络),将三维空间划分成体素 voxel,对有物体的 voxel 赋值为 1,表示 voxel 被物体占据;没有物体的 voxel 被赋值为 0,在分割后进一步识别和判断。Occupancy 网络最核心的升级正在于从目标检测(Object Detection)升级到语义分割(Semantic Segmentation)。一方面对于白名单的依赖度降低,因此识别异性物体的能力大大增强,另一方面克服了目标检测方法对于目标的外形高度敏感的问题。在特斯拉之后,理想汽车在 2023 年双能战略发布会上也表示利用Occupancy 网络识别通用障碍物,华为提出的 GOD 网络也是基于 Occupancy 的框架。
特斯拉 Occupancy Network 结构示意图
未来有望基于 Transformer 大模型实现端到端的辅助驾驶。在模块化的算法框架下 , 辅助 驾 驶 方 案 分 成 感 知 — 预 测 — 规 划 — 执 行 各 个 环 节 , 目 前BEV+Transformer 主要用来做感知环节的特征融合,以替代后融合的方案,提升感知能力并摆脱对高精地图的依赖。但整体而言,感知和预测模块的数据会再输入到规划决策模块,再通过执行模块的计算输出指令,各个模块之间仍然是分离的。
特斯拉 FSD betaV12 版本有望率先实现端到端的大模型,远期国内车企也有望实现端到端。我们以 CVPR2023 最佳论文《Planning-oriented Autonomous Driving》提出的算法框架 UniAD 为例解释端到端智能驾驶的实现方式。UniAD 由 2 个感知模块,2个预测模块和 1 个规划模块组成:
(1) TrackFormer:用于动态元素的特征提取,例如车辆和行人的帧间跟踪。
(2) MapFormer:用于静态元素的特征提取,以及实例级的地图预测。
(3) MotionFormer:将动态与静态元素的特征融合,进行长时序的轨迹预测。
(4) OccFormer:基于较短时序的全场景 BEV,进行实例级的预测。
(5) Planner:基于自车 query 的轨迹规划和 Occ 的碰撞优化进行规划。
可以从图中看到,感知和预测模块都是基于 Transformer 架构,查询向量 Q 将各个模块串联起来,其中,TrackFormer 的 Query 会一直传递到 Planner 模块,以此实现了全栈 Transformer 的端到端模型。
CVPR2023 最佳论文提出的端到端的辅助驾驶算法框架 UniAD
01
什么是AI大模型应用开发工程师?
如果说AI大模型是蕴藏着巨大能量的“后台超级能力”,那么AI大模型应用开发工程师就是将这种能量转化为实用工具的执行者。
AI大模型应用开发工程师是基于AI大模型,设计开发落地业务的应用工程师。
这个职业的核心价值,在于打破技术与用户之间的壁垒,把普通人难以理解的算法逻辑、模型参数,转化为人人都能轻松操作的产品形态。
无论是日常写作时用到的AI文案生成器、修图软件里的智能美化功能,还是办公场景中的自动记账工具、会议记录用的语音转文字APP,这些看似简单的应用背后,都是应用开发工程师在默默搭建技术与需求之间的桥梁。
他们不追求创造全新的大模型,而是专注于让已有的大模型“听懂”业务需求,“学会”解决具体问题,最终形成可落地、可使用的产品。
CSDN粉丝独家福利
给大家整理了一份AI大模型全套学习资料,这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取【保证100%免费】
02
AI大模型应用开发工程师的核心职责
需求分析与拆解是工作的起点,也是确保开发不偏离方向的关键。
应用开发工程师需要直接对接业务方,深入理解其核心诉求——不仅要明确“要做什么”,更要厘清“为什么要做”以及“做到什么程度算合格”。
在此基础上,他们会将模糊的业务需求拆解为具体的技术任务,明确每个环节的执行标准,并评估技术实现的可行性,同时定义清晰的核心指标,为后续开发、测试提供依据。
这一步就像建筑前的图纸设计,若出现偏差,后续所有工作都可能白费。
技术选型与适配是衔接需求与开发的核心环节。
工程师需要根据业务场景的特点,选择合适的基础大模型、开发框架和工具——不同的业务对模型的响应速度、精度、成本要求不同,选型的合理性直接影响最终产品的表现。
同时,他们还要对行业相关数据进行预处理,通过提示词工程优化模型输出,或在必要时进行轻量化微调,让基础模型更好地适配具体业务。
此外,设计合理的上下文管理规则确保模型理解连贯需求,建立敏感信息过滤机制保障数据安全,也是这一环节的重要内容。
应用开发与对接则是将方案转化为产品的实操阶段。
工程师会利用选定的开发框架构建应用的核心功能,同时联动各类外部系统——比如将AI模型与企业现有的客户管理系统、数据存储系统打通,确保数据流转顺畅。
在这一过程中,他们还需要配合设计团队打磨前端交互界面,让技术功能以简洁易懂的方式呈现给用户,实现从技术方案到产品形态的转化。
测试与优化是保障产品质量的关键步骤。
工程师会开展全面的功能测试,找出并修复开发过程中出现的漏洞,同时针对模型的响应速度、稳定性等性能指标进行优化。
安全合规性也是测试的重点,需要确保应用符合数据保护、隐私安全等相关规定。
此外,他们还会收集用户反馈,通过调整模型参数、优化提示词等方式持续提升产品体验,让应用更贴合用户实际使用需求。
部署运维与迭代则贯穿产品的整个生命周期。
工程师会通过云服务器或私有服务器将应用部署上线,并实时监控运行状态,及时处理突发故障,确保应用稳定运行。
随着业务需求的变化,他们还需要对应用功能进行迭代更新,同时编写完善的开发文档和使用手册,为后续的维护和交接提供支持。
03
薪资情况与职业价值
市场对这一职业的高度认可,直接体现在薪资待遇上。
据猎聘最新在招岗位数据显示,AI大模型应用开发工程师的月薪最高可达60k。
在AI技术加速落地的当下,这种“技术+业务”的复合型能力尤为稀缺,让该职业成为当下极具吸引力的就业选择。
AI大模型应用开发工程师是AI技术落地的关键桥梁。
他们用专业能力将抽象的技术转化为具体的产品,让大模型的价值真正渗透到各行各业。
随着AI场景化应用的不断深化,这一职业的重要性将更加凸显,也必将吸引更多人才投身其中,推动AI技术更好地服务于社会发展。
CSDN粉丝独家福利
给大家整理了一份AI大模型全套学习资料,这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取【保证100%免费】