news 2026/4/23 9:58:03

Alexa发布全新语音识别与语音合成技术

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Alexa发布全新语音识别与语音合成技术

今天,在某中心新的总部,某中心的设备与服务组织推出了其新的产品和服务阵容。负责通用人工智能的高级副总裁兼首席科学家Rohit Prasad预览了Alexa团队的一系列创新。

Prasad的主要发布是全新的Alexa大语言模型,这是一个更大、更通用的模型,并已针对语音应用进行了优化。该模型可以与客户就任何话题进行对话;经过微调可以可靠地进行正确的API调用;它能够进行基于推理的主动个性化;它拥有多种知识锚定机制;并设置了保护客户隐私的护栏。

在演示中,Prasad讨论了Alexa对话式AI模型的几项其他升级,旨在使交互更加自然。其中一项是通过仅查看带摄像头的Alexa设备屏幕来唤醒Alexa的新方式,无需每次都说出唤醒词:设备上的视觉处理与声学模型相结合,以判断客户是否正在对Alexa说话。

Alexa的自动语音识别系统也进行了全面改革——包括机器学习模型、算法和硬件——并正在转向一个新的基于LLM架构的大规模文本转语音模型,该模型基于数千小时的多说话人、多语言、多口音和多说话风格的音频数据进行训练。

最后,Prasad发布了Alexa新的语音转语音模型,这是一个基于LLM的模型,可直接从输入语音产生输出语音。借助该模型,Alexa将展现出类似人类的对话属性,例如笑声,并且能够使其韵律不仅适应其自身话语的内容,也适应说话者的韵律。

ASR更新将于今年晚些时候上线;LTTS和语音转语音模型将于明年部署。

语音识别
新的Alexa ASR模型是一个拥有数十亿参数的模型,在短的目标导向话语和更长的对话形式数据混合上进行训练。训练需要仔细交替数据类型和目标,以确保在两种交互类型上都达到最佳性能。

为了容纳更大的ASR模型,Alexa正在从基于CPU的语音处理转向硬件加速处理。ASR模型的输入是数据帧,即语音信号频谱的30毫秒快照。在CPU上,帧通常被逐一处理。但在GPU上这效率低下,因为GPU具有许多并行运行的处理核心,需要足够的数据来保持它们全部忙碌。

Alexa新的ASR引擎会累积输入语音帧,直到有足够的数据来确保GPU中所有核心的充足工作负载。为了最小化延迟,它还会跟踪语音信号中的停顿,如果停顿时间足够长以表示可能的语音结束,它会立即发送所有累积的帧。

GPU处理所需的语音数据批处理还启用了一种新的语音识别算法,该算法使用动态前瞻来提高ASR准确性。通常,当流式ASR应用程序解释输入帧时,它使用前面的帧作为上下文:关于过去帧的信息可以以有用的方式约束其对当前帧的假设。然而,对于批处理数据,ASR模型不仅可以使用前面的帧,还可以使用后续帧作为上下文,从而产生更准确的假设。

语音结束的最终判定由ASR引擎的端点检测器做出。最早的端点检测器都依赖于停顿长度。随着端到端语音识别的出现,ASR模型在音频-文本对上进行训练,这些文本在每条话语的末尾包含一个特殊的语音结束标记。模型然后学会将该标记作为其ASR假设的一部分输出,表示语音结束。

Alexa的ASR引擎已更新为新的两阶段端点检测器,可以更好地处理更长时间对话交流中常见的句子中间停顿。第二阶段由端点仲裁器执行,它将ASR模型对当前语音信号的转录及其对信号的编码作为输入。编码不仅捕获语音识别所需的特征,还包含用于识别表明用户是否结束说话的声学和韵律线索的信息。

端点仲裁器是一个单独训练的深度学习模型,输出关于其输入的最后一帧是否真正代表语音结束的决策。因为它同时考虑了语义和声学数据,其判断比优先考虑其中之一的模型更准确。并且因为它以ASR编码作为输入,所以可以随着ASR模型规模的不断增加来持续提高准确性。

一旦新的ASR模型生成了关于输入语音对应文本的一组假设,这些假设会传递给一个经过微调的LLM,以对其进行重新排序,从而产生更准确的结果。

如果新的、改进的端点检测器过早切断语音,Alexa仍然可以恢复,这得益于一个帮助修复截断语音的模型。该模型生成输入文本中词语之间语义关系的图表示。从图中,下游模型通常可以推断出缺失的信息;当不能时,它们通常仍然可以推断出缺失词语的语义角色,这可以帮助Alexa提出澄清性问题。这也使得与Alexa的对话更加自然。

大规模文本转语音
与早期的TTS模型不同,LTTS是一个端到端模型。它由一个传统的文本到文本LLM和一个语音合成模型组成,两者同时进行微调,因此LLM的输出是针对语音合成器的需求而定制的。微调数据集包含数千小时的语音,而早期模型的训练数据大约只有100小时。

经过微调的LTTS模型学会隐式地对韵律、音调、语调、副语言特征和语音的其他方面进行建模,其输出用于生成语音。

结果是语音结合了人类交流中存在的全部情感元素——例如提问时的好奇心和讲笑话时的喜剧表现——以及自然的不流畅和副语言声音(如嗯、啊或嘀咕),以创造出自然、富有表现力和类人化的语音输出。

为了进一步增强模型的表现力,LTTS模型可以与另一个经过微调的LLM结合使用,该LLM用于用“舞台指示”标记输入文本,指示文本应如何表达。标记后的文本随后传递给TTS模型以转换为语音。

语音转语音模型
Alexa的语音转语音模型将利用专有的预训练LLM来实现端到端语音处理:输入是客户语音信号的编码,输出是Alexa响应语音信号的编码。

该编码是该方法的其中一个关键。它是一个经过学习的编码,代表语义和声学特征。语音转语音模型对输入和输出使用相同的编码;然后将输出解码,以Alexa的其中一种声音产生声学信号。输入和输出的共享“词汇表”使得可以在预训练的LLM基础上构建该模型。

该LLM在一系列不同任务上进行微调,例如语音识别和语音到语音翻译,以确保其通用性。

语音转语音模型具有多步骤训练程序:(1)模态特定文本和音频模型的预训练;(2)多模态训练和模态间对齐;(3)语音转语音LLM的初始化;(4)在自监督损失和监督语音任务混合上对LLM进行微调;(5)与期望的客户体验对齐。

Alexa的新功能将在未来几个月内开始逐步推出。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/21 9:46:05

PyCharm激活码容易泄露?我们建议使用企业授权

PyCharm激活码容易泄露?我们建议使用企业授权 在AI模型日益成为企业核心资产的今天,一段简单的语音合成代码,可能背后就藏着价值百万的训练数据与专有算法。开发者们忙着调参、优化推理速度、提升音质的时候,往往忽略了一个致命细…

作者头像 李华
网站建设 2026/4/19 3:40:48

VoxCPM-1.5-TTS-WEB-UI能否用于智能导航语音播报?

VoxCPM-1.5-TTS-WEB-UI能否用于智能导航语音播报? 在车载交互日益智能化的今天,用户早已不满足于“能听清”的机械语音。他们期待的是更自然、更具情境感知能力的语音助手——一个能在高速变道前提醒你“请尽快向右并线”,语速略带紧迫感&…

作者头像 李华
网站建设 2026/4/20 4:17:55

使用Typora编写Sonic项目文档?Markdown编辑器推荐搭配

使用Typora编写Sonic项目文档?Markdown编辑器推荐搭配 在短视频、虚拟客服和在线教育快速发展的今天,如何高效生成自然逼真的数字人视频,已成为内容创作者与AI工程师共同关注的焦点。腾讯联合浙江大学推出的 Sonic 模型,凭借其轻量…

作者头像 李华
网站建设 2026/4/18 8:12:36

Ehercat代码解析中文摘录<3>

7. 对象EtherCAT 主站访问从站本地内存时,需通过 “对象” 实现。每个对象由以下特性唯一标识:本地内存(7.1 定义本地内存)条目描述(7.2 条目描述)对象名称(7.3 对象名称)对象描述&a…

作者头像 李华
网站建设 2026/4/18 14:03:28

超高品质数字人视频生成工作流使用Sonic全攻略

超高品质数字人视频生成工作流使用Sonic全攻略 在短视频内容爆炸式增长的今天,虚拟主播、AI讲师、智能客服等“数字人”角色正以前所未有的速度渗透进我们的数字生活。传统上,制作一段逼真的说话视频需要专业的3D建模师、动画师和后期团队,周…

作者头像 李华
网站建设 2026/4/22 0:12:22

《创业之路》-796-软件系统的兼容性、适应性、适配性与人际交往中的兼容性、适应性、适配性

这是一个极具哲思深度的类比命题。将软件系统的非功能性特性(兼容性、适应性、适配性)与人际交往中的关系能力进行对照,不仅能揭示技术与人性之间的共通逻辑,也能帮助我们从系统思维理解人际关系的本质。以下是对 “软件系统” vs…

作者头像 李华