news 2026/6/10 16:24:16

世界模型与自动驾驶:最新算法实战项目(特斯拉、视频、OCC等)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
世界模型与自动驾驶:最新算法实战项目(特斯拉、视频、OCC等)

点击下方卡片,关注“自动驾驶之心”公众号

戳我->领取自动驾驶近30个方向学习路线

世界模型,近一年自动驾驶学术界和工业界的热词。很多小伙伴咨询柱哥,有没有一门系统讲解世界模型和自动驾驶的精品课程,筹备了很久终于和大家见面!

我们联合工业界大佬共同开展,先前的《端到端与VLA自动驾驶小班课》备受大家好评,因此我们进一步推出这门世界模型小班课,课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等。欢迎大家加入学习~

早鸟优惠!开课即止~

讲师介绍

Jason:C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。

课程大纲

这门课程讲如何展开

第一章:世界模型介绍

第一章主要针对自动驾驶世界模型概括性的内容讲解。这一章老师会先复盘世界模型和端到端自动驾驶的联系,接着讲解世界模型的发展历史以及当下的应用案例。然后介绍世界模型有哪些流派:纯仿真的世界模型、仿真+Planning、生成传感器输入、生成感知结果等等流派。每一种流派在当前业界的应用,能解决什么问题,处于自驾的哪个环节。学术界和工业界都在做什么,相关的数据集、评测都有啥。在这一章节为大家一一解答~

第二章:世界模型的背景知识

世界模型的技术栈涉及十分广泛,第二章主要讲解世界模型的基础知识。我们从世界模型的场景表征开始,进一步扩展到Transformer、BEV感知等,在这一章老师会非常细致的带大家学习世界模型涉及到的背景知识,也为后续章节的展开奠定基础。

  • 首先老师会带大家复习下Transformer的基本概念,扩展到视觉Transformer,接着讲解为多模态大模型奠定基础的CLIP和LLAVA;

  • 接着详细介绍BEV感知的基础知识,以及世界模型相关工作中最常见的占用网络Occupancy Network;

  • 之后是扩散模型的理论知识讲解,当前基于扩散模型输出多模轨迹也是学术界和工业界追捧的热点,很多公司都在尝试落地;

  • 然后是世界模型中长提的闭环仿真,NeRF和3DGS,老师重点带大家梳理下核心概念,方便同学们后续自己扩展;

  • 最后讲解其他生成式模型,像VAE、GAN以及Next Token Prediction都是比较常见的生成式方法;

总结来说,第二章的内容是当下世界模型求职面试频率最高的技术关键词!

第三章:通用世界模型探讨

第三章聚焦在大家最关心的通用世界模型和最近自驾的热门工作。李飞飞团队的Marble、DeepMind提出的Genie 3、Meta团队最新的JEPA以及导航世界模型,还有最近业界讨论很广泛的VLA+世界模型算法 - DriveVLA-W0 和 特斯拉ICCV上最新分享的世界模型模拟器。Jason老师会把这些模型的来龙去脉、核心技术以及设计理念都会给大家通透的讲解。

第四章:基于视频生成的世界模型

第四章聚焦在视频生成类的世界模型算法上,也是目前学术界和工业界研究最多的领域。我们从Wayve的经典工作GAIA-1 & GAIA-2开始讲解,扩展到CVR'25 上交的UniScene、商汤的OpenDWM、中科大ICCV'25的工作InstaDrive。兼顾经典工作和最新的前沿进展为大家呈现视频生成类世界模型的领域进展。实战我们选取了商汤开源的OpenDWM为大家细致展开。

第五章:基于OCC的世界模型

第五章则聚焦在另一大类算法上 - OCC生成类的世界模型,三大论文讲解 + 一个项目实战:

  • 清华经典工作OccWorld;

  • 复旦OccLLaMA;

  • 华科ICCV'25中稿的HERMES;

  • 西交最新的II-World。

这类方法不局限于OCC生成一个任务,可以较容易的扩展为自车轨迹规划,从而进一步实现端到端。

第六章:世界模型岗位专题

有了前面五个章节的算法基础,第六章我们聚焦在更高层面的经验输出,这一章都是实打实老师工作多年的经验积累。世界模型在工业界的应用到底如何?行业内的痛点是什么?我们期望世界模型解决什么问题?又如何准备相关岗位的面试,什么内容是公司真正关注的?在这一章都会有答案!

面向人群

  • 需要自备GPU,推荐算力在4090及以上;

  • 一定的自动驾驶领域基础,熟悉自动驾驶的基本模块;

  • 了解transformer大模型、扩散模型、BEV感知等技术的基本概念;

  • 一定的概率论和线性代数基础,熟悉常用的数学运算;

  • 具备一定的python和pytorch语言基础;

学后收获

这门课程是首个面向端到端自动驾驶进阶实战教程,我们期望能够推动端到端在工业界中的落地,助力更多想要加入到自动驾驶行业的同学真正理解端到端。

  • 我们期望学完本课程:学完能够达到1年左右世界模型自动驾驶算法工程师水平;

  • 掌握世界模型技术进展,涵盖视频生成、OCC生成等方法;

  • 对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻的了解;

  • 可复现II-World、OpenDWM等主流算法框架;

  • 能够将所学应用到项目中,真正搞懂如何设计自己的世界模型;

  • 无论是实习、校招、社招都能从中受益;

课程进度安排

课程开课时间:1.1号,预计两个半月结课。离线视频教学,vip群内答疑+三次线上答疑,答疑时间截止2026.12.31日。

开始解锁时间

对应章节

12.10

第一章

1.1

第二章

1.20

第三章

2.4

第四章

2.24

第五章

3.1

第六章

课程咨询

早鸟拼团!扫码试听
扫码报名!抢占课程名额
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:37:51

让电脑学会自主操作:UI-TARS开启人机交互新纪元

让电脑学会自主操作:UI-TARS开启人机交互新纪元 【免费下载链接】UI-TARS-2B-SFT 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-2B-SFT 当我们谈论行动智能和人机交互的突破时,一个令人兴奋的新时代正在到来。想象一下&…

作者头像 李华
网站建设 2026/6/9 18:49:14

29、中小企业适用的 Linux 发行版介绍

中小企业适用的 Linux 发行版介绍 在中小企业领域,选择合适的 Linux 发行版至关重要,它不仅要有出色的桌面体验,还需配套完善的后台办公解决方案。这些发行版要能与企业内部的 Windows 用户以及外部的客户和供应商实现良好的互操作性,并且可能具备大型企业发行版所缺乏的创…

作者头像 李华
网站建设 2026/6/10 15:37:20

31、开源技术在不同场景的成功应用案例

开源技术在不同场景的成功应用案例 在当今数字化时代,开源技术凭借其成本效益、灵活性和社区支持等优势,在各个领域得到了广泛应用。本文将通过几个实际案例,深入探讨开源技术在学校、政府和企业中的应用,以及它们如何带来显著的效益。 案例一:志愿者助力特许学校节省开…

作者头像 李华
网站建设 2026/6/10 15:39:08

33、科技教育与系统应用:Siceroo与Knoppix全解析

科技教育与系统应用:Siceroo与Knoppix全解析 1. Siceroo的瘦客户端解决方案 1.1 Zodiac解决方案概述 Siceroo推出了名为Zodiac的瘦客户端解决方案,它采用开放标准和一流技术,关键在于利用开源和网络计算技术与超薄客户端。该技术非常适合远程管理,无需在工作站安装地具备…

作者头像 李华
网站建设 2026/6/10 15:52:46

OneAPI企业级接口管理系统

源码介绍:OneAPI 是一款多功能的接口管理系统可使用计费类型:免费 / 资源包 / 混合计费 支持卡密兑换和余额充值 支持实名、绑定手机号校验 支持多种通知 支持 API 文档在线编辑 支持 API 文件代码在线编辑下载地址(无套路,无须解…

作者头像 李华