腾讯开源SongGeneration：LeVo架构AI歌声生成-深圳市維司達科技有限公司

腾讯正式宣布开源其基于LeVo架构的AI歌声生成项目SongGeneration，该技术通过创新的混合音轨与双轨并行建模技术，实现了人声与伴奏的和谐融合及高品质分离处理，为音乐创作领域带来了突破性的AI解决方案。

【免费下载链接】SongGeneration腾讯开源SongGeneration项目，基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术，既能融合人声与伴奏达到和谐统一，也可分别处理实现更高音质。模型在百万歌曲数据集上训练，支持中英文生成，效果媲美业界顶尖系统，为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

近年来，AI音乐生成技术经历了从单一旋律生成长向完整歌曲创作的快速演进。随着AIGC技术的成熟，市场对兼具创作效率与艺术表现力的音乐生成工具需求激增。据相关数据显示，2024年全球AI音乐市场规模已取得显著增长，预计2025年将保持较高的增长率。在此背景下，腾讯此次开源的SongGeneration项目，凭借其百万歌曲数据集训练的技术积累和多语言支持能力，有望进一步推动AI在音乐产业的普及应用。

作为腾讯AI Lab的重要研究成果，SongGeneration的核心优势在于其独创的LeVo架构。该架构创新性地采用"混合-双轨"并行建模机制，通过LeLM语言模型与音乐编解码器的协同工作，既能生成人声与伴奏自然融合的完整歌曲，也可单独输出高保真的人声或伴奏轨道。这种灵活的处理方式，解决了传统AI音乐生成中常见的音色冲突、节奏错位等问题，极大提升了作品的艺术完整性。

[如上图所示，这是SongGeneration项目的官方Logo，简洁的设计风格体现了技术与艺术的融合理念。Logo下方提供了Demo、论文、代码和空间演示等官方资源入口，方便开发者和创作者快速了解与体验该技术。

从模型性能来看，SongGeneration提供了覆盖不同需求的多版本选择。根据官方公布的模型规格，基础版支持2分30秒时长的中英文歌曲生成，GPU内存需求仅为10G/16G；而高级版则可生成4分30秒的多语言歌曲，在A100显卡上的RFT指标达到1.51，效果已媲美业界顶尖系统。特别值得关注的是，即将发布的v1.5版本将进一步扩展至西班牙语、日语等多语言支持，显著提升了全球化应用能力。

[从图中可以看出，LeVo架构由LeLM语言模型和音乐编解码器两部分组成，通过混合 tokens 和双轨 tokens 的并行处理，实现了高质量歌曲的端到端生成。这种架构设计既保证了人声与伴奏的和谐统一，又为后期制作保留了充分的灵活性。

在应用场景方面，SongGeneration展现出广泛的适用性。对于独立音乐人，该工具可快速将歌词转化为带伴奏的demo，大幅降低创作门槛；在游戏、影视等内容生产领域，其高效的定制化音乐生成能力能够显著提升制作效率；而教育、商业推广等行业也可借助其多语言支持特性，快速生成符合特定场景需求的原创音乐。随着项目的开源，预计还将催生出更多创新应用模式。

腾讯此次选择开源SongGeneration项目，不仅体现了其在AI领域的技术自信，更将对整个行业生态产生深远影响。一方面，开放的代码和模型权重将加速AI音乐生成技术的迭代优化，吸引全球开发者共同完善技术细节；另一方面，降低商业化应用门槛，有助于中小创作者和企业以更低成本享受AI技术红利，推动音乐产业的数字化转型。特别是在版权意识日益增强的今天，基于开源技术的合规音乐创作，有望缓解行业长期面临的版权纠纷问题。

SongGeneration的开源标志着AI音乐生成技术进入了新的发展阶段。通过将尖端技术成果开放给公众，腾讯不仅巩固了其在AI领域的领先地位，更为整个音乐产业的创新发展注入了新动能。未来，随着模型性能的持续优化和应用场景的不断拓展，我们有理由相信，AI将从辅助工具逐步成长为音乐创作的核心伙伴，为人与机器的艺术协作开辟无限可能。对于音乐从业者而言，拥抱这类技术革新，将成为提升创作效率和拓展艺术边界的必然选择。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

腾讯开源SongGeneration：LeVo架构AI歌声生成

3分钟学会AI视频增强：让模糊视频秒变高清大片！

安卓系统界面深度定制工具的技术解析与实践指南

FunASR语音识别在Android端的集成实践：从零到一构建智能语音应用

语音合成质量评估终极指南：PaddleSpeech完整实战手册

终极指南：5分钟搞定FFXIV快速启动器安装与使用

C图像处理编程实战指南：OpenCvSharp一站式解决方案