news 2026/4/23 14:09:31

可扩展框架让多个文本转语音模型共存

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
可扩展框架让多个文本转语音模型共存

可扩展框架让多个文本转语音模型共存

得益于一套简单的抽象设计,不同架构的模型可以被集成,并为特定的硬件加速器进行优化。

像Alexa这样的语音助手通常拥有多种不同的语音合成器,它们在表现力、个性、语言和说话风格等属性上各不相同。支撑这些不同应用的机器学习模型可能具有完全不同的架构,将这些架构集成到单一的语音服务中可能是一个耗时且具有挑战性的过程。

为了让这个过程变得更简单、更快捷,某中心的文本转语音团队开发了一种通用模型集成框架,使我们能够以快速且可扩展的方式定制生产级语音模型。

模型多样性

最先进的语音模型通常使用两个大型神经网络来从文本输入合成语音。

第一个网络称为声学模型,以文本作为输入并生成梅尔频谱图(一种随时间表示语音的音高和能量等声学参数的图像)。第二个网络称为声码器,以梅尔频谱图作为输入并生成语音的音频波形作为最终输出。

虽然我们已发布了一种支持多种说话风格的通用声码器模型架构,但我们仍然使用不同的声学模型架构来生成这种多样化的说话风格。

声学模型最常见的架构依赖于注意力机制,该机制能学习输入文本的哪些元素与输出频谱图的当前时间“帧”最相关。通过这种机制,网络隐式地对文本不同部分的语音持续时间进行建模。

同一模型也使用“教师强制”技术,即用先前生成的语音帧作为输入来生成下一帧。虽然这种架构可以生成富有表现力且听起来自然的语音,但它容易出现清晰度错误,例如含糊不清、丢词或重复,并且错误很容易从一帧累积到下一帧。

更现代的架构通过显式地建模文本块的持续时间并并行生成语音帧来解决这些问题,这比依赖先前生成的帧作为输入更高效、更稳定。为了对齐文本和语音序列,模型只需“上采样”或重复其对文本块(其表示向量)的编码,重复次数由外部持续时间模型指定的语音帧数决定。

在不同语境(如Alexa问答、儿童故事讲述和智能家居自动化)中使用的复杂文本转语音模型的持续演进,催生了对能够处理所有这些模型的可扩展框架的需求。

集成挑战

要将声学模型集成到生产中,我们需要一个组件来处理输入的文本话语并返回梅尔频谱图。第一个困难在于,语音通常是以顺序块的方式生成的,而不是一次性全部合成。为了最小化延迟,我们的框架应尽快返回数据。一个将整个模型包装在代码中并通过单一函数调用处理所有内容的简单解决方案,其速度将是不可接受的。

另一个挑战是调整模型以适应各种硬件加速器。例如,为了从高性能的某中心Inferentia运行时中获益,我们需要确保所有张量都具有固定大小(在模型编译阶段一次性设置)。这意味着我们需要:

  1. 添加将较长话语拆分为适合特定输入大小(取决于模型)的较小块的逻辑;
  2. 添加确保正确填充的逻辑;
  3. 决定哪些功能应由模型直接处理,哪些应由集成层处理。

当希望在通用GPU上运行同一模型时,我们可能不需要这些改动,如果框架能够在不同上下文之间轻松切换将非常有用。因此,我们将文本转语音模型解耦为一组更专门的集成组件,这些组件能够执行所有必需的逻辑。

集成组件

集成层将模型封装在一组能够将输入话语转换为梅尔频谱图的组件中。由于模型通常在两个阶段运行——预处理数据和按需生成数据——因此使用两种类型的组件很方便:

  • SequenceBlock:它接收一个输入张量并返回一个转换后的张量(输入可以是应用另一个SequenceBlock的结果)。
  • StreamableBlock:它按需生成数据(例如,帧)。作为输入,它接收另一个StreamableBlock的结果(块可以形成管道)和/或由SequenceBlock生成的数据。

这些简单的抽象为创建声学模型的变体提供了极大的灵活性。以下是一个示例:

使用SequenceBlock和StreamableBlock抽象构建的声学模型示例。

该声学模型由以下部分组成:

  1. 两个编码器(SequenceBlocks),将输入文本嵌入转换为一维表示张量,一个用于编码文本,一个用于预测持续时间;
  2. 一个上采样器(StreamableBlock,以编码器的结果作为输入),根据编码器返回的数据创建中间长度的语音序列;
  3. 一个解码器(StreamableBlock),生成梅尔频谱图帧。

整个模型被封装在一个名为StreamablePipeline的专用StreamableBlock中,它恰好包含一个SequenceBlock和一个StreamableBlock:

  • SequenceBlockContainer是一个专门的SequenceBlock,由一组能够运行神经网络编码器的嵌套SequenceBlocks组成;
  • StreamableStack是一个专门的StreamableBlock,它对上采样器的输出进行解码并创建梅尔频谱图帧。

集成框架确保所有组件以正确的顺序运行,并且根据组件的特定版本,它允许使用各种硬件加速器。

集成层

声学模型作为插件提供,我们称之为“附加组件”。一个附加组件包含导出的神经网络,每个网络表示为一组命名的符号和参数(编码器、解码器等)以及配置数据。其中一个名为“stack”的配置属性,指定了应如何将集成组件连接在一起以构建可工作的集成层。以下是描述上述架构的stack属性代码示例:

'stack'=[{'type':'StreamablePipeline','sequence_block':{'type':'Encoders'},'streamable_block':{'type':'StreamableStack','stack':[{'type':'Upsampler'},{'type':'Decoder'}]}}]

这个定义将创建一个包含StreamablePipeline的集成层,其中:

  • 包含附加组件中指定的所有编码器(框架将自动创建所有必需的组件);
  • 包含一个上采样器,为解码器生成中间数据;
  • 包含附加组件中指定的解码器,生成最终的帧。

JSON格式允许我们进行简单的更改。例如,我们可以创建一个在特定硬件加速器上并行运行所有序列块的专用组件,并将其命名为CustomizedEncoders。在这种情况下,配置规范中唯一的更改就是将名称“Encoders”替换为“CustomizedEncoders”。

使用具有额外诊断或数字信号处理效果的组件运行实验也变得轻而易举。新组件的唯一要求是扩展两种通用抽象之一;除此之外,没有其他限制。即使用一个完整的嵌套序列到序列堆栈替换一个StreamableBlock,根据框架设计也是完全可以的。

该框架已在生产中使用。它是我们最近成功集成最先进的文本转语音架构(无注意力机制)和遗留模型的重要支柱。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 14:09:18

Bamtone S/SV系列自动取样机:一种PCB电路板自动切片取样方法

在电子制造中,传统PCB切片取样依赖于手工操作,不仅效率低下,且存在取样位置偏差、样品损伤率高等问题,难以满足现代电子制造业对高精度、高效率质量检测的需求。作为国内领先的PCB测量仪器、智能检测设备等专业解决方案供应商&…

作者头像 李华
网站建设 2026/4/20 15:28:31

互联网大厂Java面试:从微服务到分布式缓存的技术场景解析

互联网大厂Java面试:从微服务到分布式缓存的技术场景解析 场景描述 在一家互联网大厂的面试中,面试官李云龙与候选人谢宝庆展开了精彩的对话。场景聚焦在微服务架构和分布式缓存的技术应用,适用于电商场景。通过三轮提问,逐步深入…

作者头像 李华
网站建设 2026/4/21 20:32:38

计算机毕业设计springboot乐乐购超市网站 基于SpringBoot的乐购优选在线商城系统 SpringBoot框架下的便民生鲜超市电商平台

计算机毕业设计springboot乐乐购超市网站w449z01h(配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。 随着互联网技术的迅猛发展以及电子商务模式的持续革新,传统零售行业…

作者头像 李华
网站建设 2026/4/23 9:57:50

10个技巧:用AI测试量子加密聊天软件

量子加密聊天软件(如量子密信)利用量子密钥分发(QKD)等机制实现“一话一密”和“阅后即焚”功能,确保通信安全,但测试这类软件面临独特挑战,如量子态易受干扰和端到端加密验证。 AI技术通过自动…

作者头像 李华
网站建设 2026/4/23 9:56:04

寒区测试:鹤岗如何成为自动驾驶的“边缘案例熔炉”

一、资源枯竭城市的破局点:冰雪测试场景的稀缺性 鹤岗凭借-30℃的持续低温、复杂冰雪路面(冰棱路面占比37%)及低能见度雾凇气候,构建了天然极端测试场域。相较于传统测试场需人工模拟冰雪环境的高成本,鹤岗的真实路况为…

作者头像 李华
网站建设 2026/4/23 9:57:41

什么是 CAS?并发编程的 “无锁基石”

一、前言 在 Java 并发编程的世界里,我们总是在和 “线程安全”“性能优化” 打交道。传统的锁机制虽然能解决线程安全问题,但也带来了不少性能损耗。而今天要介绍的 Compare and Swap(简称 CAS),作为无锁编程的核心思…

作者头像 李华