news 2026/6/9 20:12:40

腾讯开源SongGeneration:LeVo架构AI歌声生成

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯开源SongGeneration:LeVo架构AI歌声生成

腾讯正式宣布开源其基于LeVo架构的AI歌声生成项目SongGeneration,该技术通过创新的混合音轨与双轨并行建模技术,实现了人声与伴奏的和谐融合及高品质分离处理,为音乐创作领域带来了突破性的AI解决方案。

【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

近年来,AI音乐生成技术经历了从单一旋律生成长向完整歌曲创作的快速演进。随着AIGC技术的成熟,市场对兼具创作效率与艺术表现力的音乐生成工具需求激增。据相关数据显示,2024年全球AI音乐市场规模已取得显著增长,预计2025年将保持较高的增长率。在此背景下,腾讯此次开源的SongGeneration项目,凭借其百万歌曲数据集训练的技术积累和多语言支持能力,有望进一步推动AI在音乐产业的普及应用。

作为腾讯AI Lab的重要研究成果,SongGeneration的核心优势在于其独创的LeVo架构。该架构创新性地采用"混合-双轨"并行建模机制,通过LeLM语言模型与音乐编解码器的协同工作,既能生成人声与伴奏自然融合的完整歌曲,也可单独输出高保真的人声或伴奏轨道。这种灵活的处理方式,解决了传统AI音乐生成中常见的音色冲突、节奏错位等问题,极大提升了作品的艺术完整性。

[如上图所示,这是SongGeneration项目的官方Logo,简洁的设计风格体现了技术与艺术的融合理念。Logo下方提供了Demo、论文、代码和空间演示等官方资源入口,方便开发者和创作者快速了解与体验该技术。

从模型性能来看,SongGeneration提供了覆盖不同需求的多版本选择。根据官方公布的模型规格,基础版支持2分30秒时长的中英文歌曲生成,GPU内存需求仅为10G/16G;而高级版则可生成4分30秒的多语言歌曲,在A100显卡上的RFT指标达到1.51,效果已媲美业界顶尖系统。特别值得关注的是,即将发布的v1.5版本将进一步扩展至西班牙语、日语等多语言支持,显著提升了全球化应用能力。

[从图中可以看出,LeVo架构由LeLM语言模型和音乐编解码器两部分组成,通过混合 tokens 和双轨 tokens 的并行处理,实现了高质量歌曲的端到端生成。这种架构设计既保证了人声与伴奏的和谐统一,又为后期制作保留了充分的灵活性。

在应用场景方面,SongGeneration展现出广泛的适用性。对于独立音乐人,该工具可快速将歌词转化为带伴奏的demo,大幅降低创作门槛;在游戏、影视等内容生产领域,其高效的定制化音乐生成能力能够显著提升制作效率;而教育、商业推广等行业也可借助其多语言支持特性,快速生成符合特定场景需求的原创音乐。随着项目的开源,预计还将催生出更多创新应用模式。

腾讯此次选择开源SongGeneration项目,不仅体现了其在AI领域的技术自信,更将对整个行业生态产生深远影响。一方面,开放的代码和模型权重将加速AI音乐生成技术的迭代优化,吸引全球开发者共同完善技术细节;另一方面,降低商业化应用门槛,有助于中小创作者和企业以更低成本享受AI技术红利,推动音乐产业的数字化转型。特别是在版权意识日益增强的今天,基于开源技术的合规音乐创作,有望缓解行业长期面临的版权纠纷问题。

值得注意的是,SongGeneration在技术创新的同时,也注重构建健康的行业生态。项目采用宽松的开源协议,允许商业使用的同时要求保留必要的版权声明,这种平衡的知识产权策略,既保护了研发团队的成果,也为技术的广泛应用创造了条件。随着v1.5版本对更多语言和更长时长歌曲生成的支持,该项目的国际影响力有望进一步提升。

SongGeneration的开源标志着AI音乐生成技术进入了新的发展阶段。通过将尖端技术成果开放给公众,腾讯不仅巩固了其在AI领域的领先地位,更为整个音乐产业的创新发展注入了新动能。未来,随着模型性能的持续优化和应用场景的不断拓展,我们有理由相信,AI将从辅助工具逐步成长为音乐创作的核心伙伴,为人与机器的艺术协作开辟无限可能。对于音乐从业者而言,拥抱这类技术革新,将成为提升创作效率和拓展艺术边界的必然选择。

【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 10:35:36

3分钟学会AI视频增强:让模糊视频秒变高清大片!

3分钟学会AI视频增强:让模糊视频秒变高清大片! 【免费下载链接】paper2gui Convert AI papers to GUI,Make it easy and convenient for everyone to use artificial intelligence technology。让每个人都简单方便的使用前沿人工智能技术 项…

作者头像 李华
网站建设 2026/6/10 10:35:08

安卓系统界面深度定制工具的技术解析与实践指南

安卓系统界面深度定制工具的技术解析与实践指南 【免费下载链接】Tweaker 项目地址: https://gitcode.com/gh_mirrors/tw/Tweaker 安卓系统定制作为移动设备个性化的重要方向,通过专业工具可以解锁系统深层的配置选项。本文将深入分析一款基于Kotlin开发的系…

作者头像 李华
网站建设 2026/6/10 10:37:15

FunASR语音识别在Android端的集成实践:从零到一构建智能语音应用

在移动应用开发领域,语音识别功能正成为提升用户体验的关键要素。FunASR作为端到端语音识别工具包,为开发者提供了便捷的集成方案。本文将带领您从实际应用场景出发,深入了解如何在Android应用中快速集成高质量的语音识别能力。 【免费下载链…

作者头像 李华
网站建设 2026/6/10 10:35:07

语音合成质量评估终极指南:PaddleSpeech完整实战手册

语音合成质量评估终极指南:PaddleSpeech完整实战手册 【免费下载链接】PaddleSpeech Easy-to-use Speech Toolkit including Self-Supervised Learning model, SOTA/Streaming ASR with punctuation, Streaming TTS with text frontend, Speaker Verification Syste…

作者头像 李华
网站建设 2026/6/10 10:06:37

终极指南:5分钟搞定FFXIV快速启动器安装与使用

终极指南:5分钟搞定FFXIV快速启动器安装与使用 【免费下载链接】FFXIVQuickLauncher Custom launcher for FFXIV 项目地址: https://gitcode.com/GitHub_Trending/ff/FFXIVQuickLauncher FFXIV快速启动器是专为最终幻想14玩家设计的革命性工具,它…

作者头像 李华
网站建设 2026/6/10 10:33:10

C图像处理编程实战指南:OpenCvSharp一站式解决方案

C#图像处理编程实战指南:OpenCvSharp一站式解决方案 【免费下载链接】opencvsharp shimat/opencvsharp: OpenCvSharp 是一个开源的 C# 绑定库,它封装了 OpenCV(一个著名的计算机视觉库),使得开发者能够方便地在 .NET 平…

作者头像 李华