Alexa发布全新语音识别与语音合成技术-深圳市維司達科技有限公司

今天，在某中心新的总部，某中心的设备与服务组织推出了其新的产品和服务阵容。负责通用人工智能的高级副总裁兼首席科学家Rohit Prasad预览了Alexa团队的一系列创新。

Prasad的主要发布是全新的Alexa大语言模型，这是一个更大、更通用的模型，并已针对语音应用进行了优化。该模型可以与客户就任何话题进行对话；经过微调可以可靠地进行正确的API调用；它能够进行基于推理的主动个性化；它拥有多种知识锚定机制；并设置了保护客户隐私的护栏。

在演示中，Prasad讨论了Alexa对话式AI模型的几项其他升级，旨在使交互更加自然。其中一项是通过仅查看带摄像头的Alexa设备屏幕来唤醒Alexa的新方式，无需每次都说出唤醒词：设备上的视觉处理与声学模型相结合，以判断客户是否正在对Alexa说话。

Alexa的自动语音识别系统也进行了全面改革——包括机器学习模型、算法和硬件——并正在转向一个新的基于LLM架构的大规模文本转语音模型，该模型基于数千小时的多说话人、多语言、多口音和多说话风格的音频数据进行训练。

最后，Prasad发布了Alexa新的语音转语音模型，这是一个基于LLM的模型，可直接从输入语音产生输出语音。借助该模型，Alexa将展现出类似人类的对话属性，例如笑声，并且能够使其韵律不仅适应其自身话语的内容，也适应说话者的韵律。

ASR更新将于今年晚些时候上线；LTTS和语音转语音模型将于明年部署。

语音识别
新的Alexa ASR模型是一个拥有数十亿参数的模型，在短的目标导向话语和更长的对话形式数据混合上进行训练。训练需要仔细交替数据类型和目标，以确保在两种交互类型上都达到最佳性能。

为了容纳更大的ASR模型，Alexa正在从基于CPU的语音处理转向硬件加速处理。ASR模型的输入是数据帧，即语音信号频谱的30毫秒快照。在CPU上，帧通常被逐一处理。但在GPU上这效率低下，因为GPU具有许多并行运行的处理核心，需要足够的数据来保持它们全部忙碌。

Alexa新的ASR引擎会累积输入语音帧，直到有足够的数据来确保GPU中所有核心的充足工作负载。为了最小化延迟，它还会跟踪语音信号中的停顿，如果停顿时间足够长以表示可能的语音结束，它会立即发送所有累积的帧。

GPU处理所需的语音数据批处理还启用了一种新的语音识别算法，该算法使用动态前瞻来提高ASR准确性。通常，当流式ASR应用程序解释输入帧时，它使用前面的帧作为上下文：关于过去帧的信息可以以有用的方式约束其对当前帧的假设。然而，对于批处理数据，ASR模型不仅可以使用前面的帧，还可以使用后续帧作为上下文，从而产生更准确的假设。

语音结束的最终判定由ASR引擎的端点检测器做出。最早的端点检测器都依赖于停顿长度。随着端到端语音识别的出现，ASR模型在音频-文本对上进行训练，这些文本在每条话语的末尾包含一个特殊的语音结束标记。模型然后学会将该标记作为其ASR假设的一部分输出，表示语音结束。

Alexa的ASR引擎已更新为新的两阶段端点检测器，可以更好地处理更长时间对话交流中常见的句子中间停顿。第二阶段由端点仲裁器执行，它将ASR模型对当前语音信号的转录及其对信号的编码作为输入。编码不仅捕获语音识别所需的特征，还包含用于识别表明用户是否结束说话的声学和韵律线索的信息。

端点仲裁器是一个单独训练的深度学习模型，输出关于其输入的最后一帧是否真正代表语音结束的决策。因为它同时考虑了语义和声学数据，其判断比优先考虑其中之一的模型更准确。并且因为它以ASR编码作为输入，所以可以随着ASR模型规模的不断增加来持续提高准确性。

一旦新的ASR模型生成了关于输入语音对应文本的一组假设，这些假设会传递给一个经过微调的LLM，以对其进行重新排序，从而产生更准确的结果。

如果新的、改进的端点检测器过早切断语音，Alexa仍然可以恢复，这得益于一个帮助修复截断语音的模型。该模型生成输入文本中词语之间语义关系的图表示。从图中，下游模型通常可以推断出缺失的信息；当不能时，它们通常仍然可以推断出缺失词语的语义角色，这可以帮助Alexa提出澄清性问题。这也使得与Alexa的对话更加自然。

大规模文本转语音
与早期的TTS模型不同，LTTS是一个端到端模型。它由一个传统的文本到文本LLM和一个语音合成模型组成，两者同时进行微调，因此LLM的输出是针对语音合成器的需求而定制的。微调数据集包含数千小时的语音，而早期模型的训练数据大约只有100小时。

经过微调的LTTS模型学会隐式地对韵律、音调、语调、副语言特征和语音的其他方面进行建模，其输出用于生成语音。

结果是语音结合了人类交流中存在的全部情感元素——例如提问时的好奇心和讲笑话时的喜剧表现——以及自然的不流畅和副语言声音（如嗯、啊或嘀咕），以创造出自然、富有表现力和类人化的语音输出。

为了进一步增强模型的表现力，LTTS模型可以与另一个经过微调的LLM结合使用，该LLM用于用“舞台指示”标记输入文本，指示文本应如何表达。标记后的文本随后传递给TTS模型以转换为语音。

语音转语音模型
Alexa的语音转语音模型将利用专有的预训练LLM来实现端到端语音处理：输入是客户语音信号的编码，输出是Alexa响应语音信号的编码。

该编码是该方法的其中一个关键。它是一个经过学习的编码，代表语义和声学特征。语音转语音模型对输入和输出使用相同的编码；然后将输出解码，以Alexa的其中一种声音产生声学信号。输入和输出的共享“词汇表”使得可以在预训练的LLM基础上构建该模型。

该LLM在一系列不同任务上进行微调，例如语音识别和语音到语音翻译，以确保其通用性。

语音转语音模型具有多步骤训练程序：（1）模态特定文本和音频模型的预训练；（2）多模态训练和模态间对齐；（3）语音转语音LLM的初始化；（4）在自监督损失和监督语音任务混合上对LLM进行微调；（5）与期望的客户体验对齐。

Alexa的新功能将在未来几个月内开始逐步推出。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

Alexa发布全新语音识别与语音合成技术

PyCharm激活码容易泄露？我们建议使用企业授权

VoxCPM-1.5-TTS-WEB-UI能否用于智能导航语音播报？

使用Typora编写Sonic项目文档？Markdown编辑器推荐搭配

Ehercat代码解析中文摘录＜3＞

超高品质数字人视频生成工作流使用Sonic全攻略

《创业之路》-796-软件系统的兼容性、适应性、适配性与人际交往中的兼容性、适应性、适配性