AMD Hummingbird-XT: 面向消费端的高性能视频生成算法-深圳市維司達科技有限公司

AMD Hummingbird-XT: 面向消费端的高性能视频生成算法

原文作者：Takashi Isobe, He Cui, Mengmeng Ge, Dong Zhou, Dong Li, KuanTing Lin, Chandra Yang, Wickey Wang, Emad Barsoum.

引言

随着近些年扩散模型的出现与快速发展[1]，视频生成算法在分辨率、生成质量以及创作范式等方面均取得了令人瞩目的进展，并辐射性地重塑了整个视频创作流程：用户只需提供文本或图像输入，视频扩散模型便可自动生成符合指令的视频内容。然而，这种高度便捷的生成能力背后，往往依赖于极为庞大的算力与显存开销作为支撑。受此限制，当前主流的基于 Transformer 的扩散模型（DiT）大多部署于高算力的云端服务环境中，用户需通过特定网站或软件以请求式的方式调用模型完成视频生成[2,3]。

这种以算力堆叠为核心的发展路径也逐渐显现出其局限性：高延迟、高成本以及对云端基础设施的强依赖，使得视频生成难以真正融入广泛创作者的日常使用。在此背景下，面向消费级硬件的视频生成算法开始受到广泛关注，其目标是在受限的算力与显存条件下，实现可实时、可本地运行的视频生成能力。

为解决上述痛点，本篇博客将重点介绍 Hummingbird-XT，并探讨其如何对现有 DiT 视频架构进行系统性加速（以主流的 Wan-2.2-5B TI2V [3]为例），从而推动视频生成模型在消费端的实际落地。此外，针对长视频生成场景，本博客还介绍了 Hummingbird-XTX，一款基于 Wan-2.1-1.3B T2V 架构的高效 DiT 模型转为长视频设计。在单卡推理条件下，其理论上可生成无限长视频序列（视频分辨率为 832× 480），并保持线性随帧数增长的推理复杂度，为流式和实时视频生成提供了可行路径。Hummingbird 系列模型的相关训练代码与数据集已向社区开源，进一步丰富并完善了 AMD 的视频生成生态系统。

3步去噪便可生成高质量视频

扩散模型的一种加速思路是让学生扩散模型用最少的步数模拟基模型（老师）多在步数下的去噪轨迹。为此，我们采用了一种基于分布匹配蒸馏（DMD）的Self-forcing变体 [4,5,6]。该方法通过让学生 DiT 模型直接模仿教师模型的去噪行为，并且无需依赖真实的文本和视频对进行监督。蒸馏过程可概括为三个核心步骤：（1）生成目标潜在表示：学生模型首先通过后向模拟采样器，在多个较大的扩散时间步上生成一条潜在视频轨迹，其最终去噪结果被视为“纯净”的潜在目标。（2）构造噪声输入：随机采样一个扩散时间步，并向潜在表示中注入高斯噪声，得到噪声潜在表示。（3）教师–学生分数对齐：对噪声潜在表示分别应用冻结的教师分数网络和可训练的学生分数网络，两者均采用无分类器引导。教师分数提供目标去噪方向，而二者之间的差异构成一个 KL 风格的约束，驱动学生模型逼近教师模型的更新行为。

蒸馏过程中输入图像和文本提示词的质量对学生模型的生成效果起着关键作用。如图 1 所示，实际数据中常见的提示词问题主要包括三类：（1）过短提示词：仅描述动作，缺乏背景与外观信息，容易导致运动重影；（2）过长描述性提示词：对物体与场景的细节描述冗余，容易引发物体幻觉；（3）动作与镜头描述过强：过度强调动作或镜头运动，导致生成不稳定和运动幅度失真。为缓解上述问题，我们设计了一套系统化的数据筛选与重写流程，收集约数十万对视频首帧和文本的配对样本，并使用使用 Qwen-2.5-14B Instruct [7]对提示词过长的样本进行了修正。随后，利用 Qwen-2.5-72B [7] 对重写后的提示词进行质量评估并过滤异常样本，最终筛选得到约 7 万对高质量文本–图像数据，用于步数蒸馏训练。

图1：蒸馏过程中使用噪声数据所引发的问题示例。第一行：仅包含动作信息的短提示词，导致明显的运动重影；第二行：过于冗长的描述性提示词，引发物体幻觉；第三行：过度强调动作与镜头运动的提示词，导致运动幅度异常及生成不稳定。

为了解决这个问题，我们设计了一条精心构建的 data curation（数据筛选与清洗）流水线。

首先，我们通过合并 MagicMotion [5]、OpenVid-HD [6] 和 HumanVid [7] 这三个数据集，收集了约 14 万对文本–图像样本。这些数据集都提供了从视频中抽取的高质量首帧图像。然而，OpenVid-HD 和 HumanVid 中的原始文本描述往往过于冗长，倾向于完整描写背景和物体外观，这样的风格并不适合 student-teacher generation（师生式生成）场景。

为了提升文本描述的质量，我们使用 Qwen-2.5-14B Instruct [8] 对每个样本进行重写，重写时遵循以下规则：

直接从主要主体或场景开始描述；
只描述原始 caption 中明确提到的内容，并聚焦在主要主体上；
避免使用影视摄影相关术语；
不引入任何新的物体、人物、动作或细节；
不输出分析、推理、说明性文字或操作指引；
不使用第一人称语言。

在此基础上，我们进一步使用 Qwen-2.5-72B 对重写后的 caption 进行质量评估，并过滤掉异常样本，最终得到约 7 万对高质量文本–图像样本用于训练。

迈向高效且轻量级的视频 VAE

VAE 解码器是视频扩散模型中的另一主要计算瓶颈。现有视频 VAE 往往依赖计算开销较大的 3D 卷积或注意力模块来提升重建质量[3]。为此，Hummingbird-XT 引入了一种高效且轻量级的 VAE 解码器，在保持与目标视频模型 VAE 相同压缩率和潜在通道数的前提下，实现了与其 DiT 模型的无缝兼容。该解码器可直接替换基视频模型中的原始 VAE（如 Wan-2.2-5B），在保持视觉质量的同时显著降低了解码计算开销。

图 2：所提出的高效轻量级 VAE 解码器架构。

架构优化包含了3个核心改动：（1）针对计算开销较大的标准 3D 卷积，引入 3D 深度可分离卷积进行替换，以显著降低参数量与 FLOPs；（2）基于对解码器冗余性的观察，高分辨率解码模块对重建质量更为关键，而低分辨率模块存在明显计算冗余。因此，仅在前三个解码器模块中采用 3D 深度可分离卷积，而在最后两个模块中保留标准 3D 卷积，以平衡效率与重建质量；（3）进一步移除了注意力层，并减少了各模块中的卷积层数量与潜在通道规模。

在训练策略方面，采用了以下两点关键设计：（1）冻结原始 Wan-2.2 VAE 的编码器，仅对压缩后的解码器进行训练，使其在固定潜在空间中学习稳定的像素重建映射，从而避免潜在空间坍塌问题。训练完成后，该解码器可无缝集成至原始 DiT 模型中，无需额外微调；（2）引入师生蒸馏策略以进一步提升重建质量[8]，利用原始 VAE 解码器前若干模块的中间特征作为教师信号，引导轻量解码器学习一致的特征表示。整体训练目标由重建损失、感知损失（LPIPS）、KL 散度以及特征蒸馏损失共同组成。实验结果表明，所提出的轻量级 VAE 解码器在显著降低计算成本的同时，保持了优良的重建与生成质量，并在视觉效果上优于近期的轻量级 VAE 方法（如 Taehv [12]）。

Hummingbird-XTX：高效可扩展的长视频生成

图 3： Frame Sink 通过在 KV 缓存中永久保留初始帧特征作为全局锚点，防止长序列生成中的色彩退化。

长视频生成是视频生成领域中的一个重要子方向，其目标是在更低的计算成本下生成包含更丰富时序与语义信息的视频内容。基于 Wan-2.1-1.3B [3] 的 Hummingbird-XTX 正是为应对这一需求而设计的模型，为流式和实时视频生成提供了可行路径。

现有的长视频生成方法大多依赖双向注意力机制，在生成每一帧时都需要处理完整的视频序列，导致计算复杂度随帧数呈二次增长，从而难以适用于实时或流式生成场景。相比之下，自回归模型[9]通过逐帧生成并结合 KV 缓存，在理论上能够将推理复杂度降低至线性，是实现长视频生成的理想参考。然而，直接采用自回归范式会引入严重的暴露偏差：模型在训练阶段依赖真实帧作为条件，而在推理阶段却必须基于自身预测结果展开生成，误差随时间不断累积，进而迅速导致生成质量退化甚至崩溃，仅对现有模型进行简单微调难以从根本上缓解这一问题。

为此，Hummingbird-XTX 从初始化方式与训练范式两个层面进行了系统性重设计：

首先，引入基于常微分方程（ODE）[10]的初始化策略，在蒸馏前利用预训练教师模型生成少量逆向扩散轨迹，对学生模型进行预热，使其在潜在分布层面逼近教师模型，为后续自回归训练提供稳定的起点；其次，采用 Self-Forcing 训练范式[6]，在训练阶段执行完整的自回归展开，并结合训练期 KV 缓存与少步生成条件下的梯度截断，使模型能够在可控的计算与显存开销下学习修正自身预测误差，从而实现整体的分布匹配优化。进一步地，引入 Frame Sink 机制以保留初始帧的全局信息，使模型在使用短窗口注意力实现线性时间复杂度时，避免长视频生成中的语义和风格漂移,实现长视频下的色彩主体一致性。

长视频解码的高效分帧策略

在高分辨率长视频解码过程中，若直接对完整的时序特征空间应用 3D 卷积，会带来过高的显存占用和计算开销。我们通过将长视频的特征空间沿时间维度拆分为多个短片段进行加速解码，并提出了两种对应的分帧解码策略因果 VAE 解码器（仅利用历史帧信息）和非因果 VAE 解码器（同时利用过去与未来帧信息）。

图 4：长视频的两种解码策略

这两类解码器均在短视频片段上完成训练，在扩展至长视频解码时分别采用了不同的推理策略：对于因果 VAE，采用因果缓存机制，将潜在序列划分为不重叠的时间片段并顺序解码，同时复用前一片段的中间特征作为上下文；对于非因果 VAE，则采用 Tiling 分块策略，将潜在序列划分为相互重叠的时间片段，并对重叠区域进行线性融合以保证时间连续性。实验结果表明，将非因果 VAE 解码器与 Tiling 策略相结合，在显著降低显存与计算开销的同时，不仅提升了重建质量，还进一步加速了 Hummingbird-XT 与 Hummingbird-XTX 的推理过程。

实验结果

1.Hummingbird-XT 相比基模型 Wan-2.2-5B，在消费级显卡上实现 33× 加速，可高效生成 704×1280 分辨率、121 帧视频。

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

切换到竖屏全屏退出全屏

AMD开发者中心已关注

分享视频

，时长00:13

0/0

00:00/00:13

切换到横屏模式

继续播放

进度条，百分之0

播放

00:00

00:13

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清流畅

继续观看

AMD Hummingbird-XT: 面向消费端的高性能视频生成算法

观看更多

转载

AMD Hummingbird-XT: 面向消费端的高性能视频生成算法

AMD开发者中心已关注

分享点赞在看

已同步到看一看写下你的评论

视频详情

2.在 VBench-T2V 与 VBench-I2V 测试集上，Hummingbird-XT 在生成质量与语义一致性，以及主体与背景一致性方面，均达到与基模型 Wan-2.2-5B 具有竞争力的性能。

3.所提出的轻量级 VAE 在显著降低解码时间与显存占用的同时，仍保持接近原始 Wan-2.2 VAE 的重建质量。

4.在长视频生成任务中，Hummingbird-XTX 以显著更高的 FPS 完成 300+ 帧视频生成，并保持稳定的时序一致性。

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

切换到竖屏全屏退出全屏

AMD开发者中心已关注

分享视频

，时长00:28

0/0

00:00/00:28

切换到横屏模式

继续播放

进度条，百分之0

播放

00:00

00:28

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清流畅

继续观看

AMD Hummingbird-XT: 面向消费端的高性能视频生成算法

观看更多

转载

AMD Hummingbird-XT: 面向消费端的高性能视频生成算法

AMD开发者中心已关注

分享点赞在看

已同步到看一看写下你的评论

视频详情

参考工作

1.Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851.

2.Peebles W, Xie S. Scalable diffusion models with transformers[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2023: 4195-4205.

3.Wan T, Wang A, Ai B, et al. Wan: Open and advanced large-scale video generative models[J]. arXiv preprint arXiv:2503.20314, 2025.

4.Zhang, Peiyuan, et al. “Fast video generation with sliding tile attention.” arXiv preprint arXiv:2502.04507 (2025).

5.Li Q, Xing Z, Wang R, et al. Magicmotion: Controllable video generation with dense-to-sparse trajectory guidance[J]. arXiv preprint arXiv:2503.16421, 2025.

6.Huang X, Li Z, He G, et al. Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion[J]. arXiv preprint arXiv:2506.08009, 2025.

7.Hui B, Yang J, Cui Z, et al. Qwen2. 5-coder technical report[J]. arXiv preprint arXiv:2409.12186, 2024.

8.Yao J, Yang B, Wang X. Reconstruction vs. generation: Taming optimization dilemma in latent diffusion models[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 15703-15712.

9.Chen B, Martí Monsó D, Du Y, et al. Diffusion forcing: Next-token prediction meets full-sequence diffusion[J]. Advances in Neural Information Processing Systems, 2024, 37: 24081-24125.

10.Song J, Meng C, Ermon S. Denoising diffusion implicit models[J]. arXiv preprint arXiv:2010.02502, 2020.

11.Huang, Ziqi, et al. "Vbench: Comprehensive benchmark suite for video generative models."Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

12.Bohan O B. Taehv: Tiny autoencoder for hunyuan video[EB/OL].(2025)

13.Yin T, Zhang Q, Zhang R, et al. From slow bidirectional to fast autoregressive video diffusion models[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 22963-22974.

14.Yang S, Huang W, Chu R, et al. Longlive: Real-time interactive long video generation[J]. arXiv preprint arXiv:2509.22622, 2025.

15.Liu K, Hu W, Xu J, et al. Rolling forcing: Autoregressive long video diffusion in real time[J]. arXiv preprint arXiv:2509.25161, 2025.

AMD Hummingbird-XT: 面向消费端的高性能视频生成算法

AMD Hummingbird-XT: 面向消费端的高性能视频生成算法

终极指南：Switch大气层系统1.7.1完整安装与功能解锁

InkOS：基于多Agent协作与长期记忆的AI小说创作系统深度解析

深耕社区生鲜14年，钱大妈的“鲜”行法则与长期主义

3分钟快速上手：开源阅读工具完整书源配置与使用全攻略

给AutoSar新手的保姆级避坑指南：从RTE、BSW到CDD，手把手带你搭建知识体系

激光雷达行业深度研究：技术收敛、价格趋稳下的量增新局与竞争格局重塑