HunyuanVideo-Foley：高保真拟音生成扩散模型-深圳市維司達科技有限公司

HunyuanVideo-Foley：高保真拟音生成扩散模型

你有没有遇到过这样的情况：一段精心制作的AI生成视频，画面流畅、细节丰富，可一旦播放，却像“默片”一样缺乏声音支撑？再逼真的奔跑镜头配上静音，观众立刻出戏。这正是当前多模态内容创作中一个长期被忽视但极其关键的问题——视觉可以造假，但听觉决定真实感。

腾讯混元团队显然注意到了这一点。他们没有止步于“生成画面”或“生成语音”，而是将目光投向了更精细、更难啃的骨头：从视频画面中自动还原出与之完全匹配的动作音效、环境声和背景音乐。于是，HunyuanVideo-Foley 诞生了——一款基于扩散架构的高保真拟音生成模型，试图真正实现“所见即所闻”。

这个模型不只是换个提示词就能出个BGM那么简单。它的目标是理解视频中的物理交互：“玻璃碎裂”的瞬间对应怎样的高频脆响？“人在雪地行走”时脚步节奏与积压声的关系如何？甚至连“风吹过树林”的层次感（树叶摩擦、枝干晃动、远处回响）都要精准还原。听起来像是电影后期音效师的工作，但现在，它由一个端到端训练的AI系统完成。

背后的技术逻辑并不简单。传统方法往往采用两步走：先识别动作类别，再检索已有音效库进行拼接。这种做法不仅受限于数据库覆盖范围，还极易出现音画错位。而 HunyuanVideo-Foley 走的是联合建模路径——通过多模态扩散变压器，在潜在空间中同步演化视觉语义与音频结构，让声音“生长”在动作发生的那一刻。

整个流程始于对输入视频的深度解析。ViT-L/14 编码器逐帧提取视觉特征，捕捉物体类别、运动轨迹和空间关系。与此同时，一个轻量级文本描述模块自动生成场景标签，比如“一只狗在石子路上奔跑并偶尔吠叫”。这些信息并非简单拼接，而是作为条件信号注入到扩散过程中，引导音频生成的方向。

核心在于那个名为Multimodal Diffusion Transformer (MDT)的结构。它摒弃了传统的串行交叉注意力设计，转而采用双流潜空间建模 + 联合注意力机制。也就是说，在每一层Transformer中，音频潜在表示不仅能关注自身历史状态，还能同时看到视觉特征和文本语义，并通过动态门控调节各模态的影响权重。这种并行融合策略有效缓解了模态不平衡问题——不会因为画面信息弱就导致音效失控，也不会因文本描述模糊而偏离主题。

为了进一步提升生成稳定性，团队引入了自监督音频表示作为中间监督信号。具体来说，在去噪扩散的每一步，模型会利用 wav2vec-U 或 HuBERT 提取当前重建音频的离散语音单元（pseudo-text units），并与真实音频对应的 unit 序列计算 CTC-style 损失。这一招看似微小，实则关键：它迫使模型学习符合物理规律的声音结构，显著减少了“幻听”现象（hallucinated sounds），比如凭空出现不属于当前场景的乐器声或人声片段。

当然，再好的潜在表示也得靠解码器“落地”。传统 Mel-spectrogram 解码器常因频带压缩和相位丢失导致音质发闷，尤其在表现钢琴泛音、织物摩擦等细腻纹理时力不从心。为此，团队自主研发了一款HiFi-VAE 解码器，基于改进版 VQ-VAE 架构构建，支持 48kHz 高分辨率输出，保留完整动态范围与高频细节。更重要的是，推理延迟控制在 <80ms（RTF ~0.3），意味着即便在实时应用场景下也能保持流畅响应。

这一切的努力最终体现在性能数据上。在 MovieGen-Audio-Bench 测试集中，HunyuanVideo-Foley 在多个维度全面超越现有方案：

指标	定义	HunyuanVideo-Foley (Ours)
PQ↑	Perceptual Quality (感知质量)	6.59
PC↓	Per-frame Desynchronization (帧间失步率)	2.74
CE↑	Contextual Embedding Similarity (上下文嵌入相似度)	3.88
CU↑	Content Understanding Score (内容理解得分)	6.13
DeSync↓	Temporal Misalignment Rate (时序错位率)	0.35
CLAP↑	CLIP-based Audio-Text/Visual Alignment	0.74
MOS-Q↑	Mean Opinion Score - Quality	4.14±0.68
MOS-S↑	MOS - Semantic Alignment	4.12±0.77
MOS-T↑	MOS - Temporal Sync	4.15±0.75

尤其是在主观评测中，三项 MOS 分数均突破 4.1，远超 FoleyGrafter、V-AURA 等主流方法。这意味着普通听众已难以区分生成音效与真实录制之间的差别。

更令人惊喜的是其跨域泛化能力。在 Kling 自建评估集上的测试显示，模型在 FD_PANNs（音频分布贴近真实数据的程度）低至6.07，远优于第二名的 9.01；KL 散度仅为1.89，说明生成音频的概率分布高度接近真实世界样本。这表明该模型并非记忆训练数据，而是真正学会了声音生成的底层规律。

数据驱动：十万小时的真实世界声音图谱

任何强大的生成模型都离不开高质量的数据支撑。HunyuanVideo-Foley 的背后是一个名为TV2A（Text-Video-to-Audio）的大规模数据集，包含超过10万小时经清洗与标注的视频-音频对。这些素材来源多样：电影剪辑、YouTube vlog、动画剧集、游戏录屏……几乎涵盖了所有常见视听场景。

自动化标注系统是这套数据管道的核心。它结合视觉大模型、ASR 和 LLM 技术，实现了三重信息提取：
- 视觉侧：使用 ViT-G/14 提取每帧语义标签（如“人在跳跃”、“雨滴落在伞面”）
- 文本侧：通过 ASR 获取语音内容，再用 LLM 归纳为自然语言描述
- 音频侧：利用音频事件检测模型（AED）分离出环境音、动作音与背景音乐成分

随后，一套严格的噪声过滤机制排除低质量样本：包括音画不同步、版权敏感内容、低信噪比录音等。最终形成结构化三元组(video_clip, text_caption, audio_track)，为端到端联合训练提供了坚实基础。

值得注意的是，该数据集特别强化了细粒度动作-声音映射的覆盖密度。例如，“关门”这一动作就被细分为“轻轻关”、“用力甩”、“金属门吱呀声”等多种子类，确保模型能捕捉微妙的行为差异。这也解释了为何在实际应用中，用户只需输入“轻柔的脚步声走在木地板上”，模型便能准确抑制金属撞击类音色，激活木质摩擦相关的声学模式。

开箱即用：开发者友好接口设计

尽管技术复杂，但 HunyuanVideo-Foley 对开发者的接入极为友好。项目已在 GitHub 开源，提供完整的推理脚本与 Web 界面。

快速部署步骤如下：

# 克隆代码仓库 git clone https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley cd HunyuanVideo-Foley # 安装依赖（需提前安装 git-lfs） pip install -r requirements.txt # 下载预训练模型 huggingface-cli download tencent/HunyuanVideo-Foley --local-dir ./models/hunyuanvideo-foley

支持三种调用方式：

单视频生成

python3 infer.py \ --model_path ./models/hunyuanvideo-foley \ --config_path ./configs/hunyuanvideo-foley-xxl.yaml \ --single_video ./examples/walking_dog.mp4 \ --single_prompt "a dog walking on a gravel path with occasional barks" \ --output_dir ./results/

批量处理（CSV输入）

准备 CSV 文件：

video_path,prompt ./videos/scene1.mp4,"rain falling on a tin roof" ./videos/scene2.mp4,"car engine starting and accelerating"

执行命令：

python3 infer.py \ --model_path ./models/hunyuanvideo-foley \ --config_path ./configs/hunyuanvideo-foley-xxl.yaml \ --csv_path assets/test.csv \ --output_dir ./batch_results/

启动交互式Web界面

export HIFI_FOLEY_MODEL_PATH=./models/hunyuanvideo-foley python3 gradio_app.py

启动后访问http://127.0.0.1:7860，即可拖拽上传视频、编辑提示词并实时预览结果。

不只是拟音：产业落地的多种可能

HunyuanVideo-Foley 的价值远不止于技术炫技。它正在多个领域展现出切实的应用潜力：

场景	实际价值
影视后期	自动生成环境氛围音与动作拟音，减少 Foley 录音工作量，缩短制作周期
游戏开发	实时为NPC动作、场景切换生成动态音效，降低资源包体积，增强交互沉浸感
短视频/AIGC创作	一键为AI生成视频添加匹配音轨，提升内容吸引力与完播率
无障碍媒体	为视障用户提供声音化的场景描述辅助，实现“听觉可视化”
虚拟人交互	匹配口型与肢体动作，生成自然语音外的声音反馈（如呼吸、衣物摩擦）

特别是在 AIGC 创作爆发的当下，许多用户已经可以用文字生成完整视频，唯独缺少同步音效。HunyuanVideo-Foley 正好填补了这一空白，让“全自动视频生成”真正闭环。

结语：听得见的画面，才是完整的智能

HunyuanVideo-Foley 的意义，不仅在于它达到了当前最高的音画对齐水平，更在于它重新定义了“多模态生成”的边界。过去我们常说“图文一致”、“音画同步”，但那往往是后期对齐的结果。而现在，声音不再是附属品，而是与画面共同演化的有机组成部分。

未来，团队计划拓展更多音效类型，如情感化背景音乐、角色旁白配音，并探索轻量化版本以支持移动端部署。或许不久之后，每一个手机剪辑 App 都能内置一个“智能拟音师”，让你随手拍的 Vlog 瞬间拥有电影级声场体验。

这才是真正的“听得见的画面”。

🔗项目主页与演示视频：https://szczesnys.github.io/hunyuanvideo-foley/
🐙GitHub开源地址：https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley

欢迎试用、反馈与合作！

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

HunyuanVideo-Foley：高保真拟音生成扩散模型