Alexa新功能实现自然多轮对话交互-深圳市維司達科技有限公司

Alexa新功能实现自然多轮对话交互

“对话模式”代表了语音AI领域的一个重要里程碑。该功能将让Echo Show 8和Echo Show 10的用户能够更自然地与Alexa互动，而无需重复说出唤醒词。该功能的AI通过结合视觉和声学线索，能够识别用户的语音何时是指向设备的，以及是否需要回复。用户可以说“Alexa，打开对话模式”来启用此功能，并通过说“关闭对话模式”来退出。或者，如果短时间内没有任何交互，Alexa也会自动退出该模式。

对话模式使得一个或多个用户可以同时与Alexa互动。这增加了检测设备指向性的难度，因为像“推荐一部喜剧片怎么样？”这样的问题，既可能是在问Alexa，也可能是在问另一个用户。该功能还需要具备低延迟，以准确检测设备指向性话语的开始；否则，Alexa可能无法捕捉到完整的话语。这在基于唤醒词的交互中更容易实现，因为唤醒词的检测为处理话语提供了一个明确的起点。

实现对话模式的无唤醒词交互需要在多个领域进行创新，包括视觉设备指向性检测（CVDD）、基于音频的语音活动检测（DVAD）以及视听特征融合。

视觉设备指向性检测（CVDD）

在人类交流中，判断一段话语指向谁的一个线索是说话者的身体朝向。类似地，开发了一种通过估计设备视野内每个人的头部方向来测量视觉设备指向性的方法。

解决此问题的标准方法是检测一组粗略的（通常是五个）面部特征点，然后使用一种称为透视N点（PnP）的基于几何的技术从中估计面部朝向。这种方法速度快，但在真实场景中精度较低。另一种方法是直接训练一个模型，将每个图像区域分类为设备指向或非指向，并将其应用于面部检测器的输出。但这需要一个大型、带标注的数据集，其收集成本高昂。

相反，我们将每个头部表示为具有不同属性的模板3D头部的线性组合。训练了一个深度神经网络模型，以推断给定输入图像的模板系数，并确定图像中头部的方向。然后对模型的权重进行了量化，以减少其大小和执行时间。在实验中，与PnP方法相比，这种方法将视觉设备指向性检测的错误拒绝率（FRR）降低了近80%。

基于音频的设备语音活动检测（DVAD）

除了视觉指向性，对话模式还利用音频线索来确定语音何时是指向设备的。为了处理音频信号，我们使用了一种称为可分离卷积神经网络（CNN）的模型。标准的CNN模型通过将固定大小的滤波器滑动到输入上，寻找任何位置出现的特征模式。在可分离CNN中，编码滤波器的矩阵被分解为更小的矩阵，这些小矩阵相乘以近似原始矩阵，从而减少计算负担。我们进行了实验来微调架构，并优化滤波器大小和矩阵分解，以最小化延迟。

随着对话模式在2021年的首次发布，DVAD模型的加入相较于仅使用视觉数据的模型，将FRR降低了83%。DVAD模型在减少因环境噪声或Alexa自身响应而引发的误唤醒方面尤其有效，即使用户看着设备但并未说话。与纯视觉模型相比，增加DVAD实现了因环境噪声导致的误唤醒减少80%，因Alexa自身响应触发的误唤醒减少42%，且没有增加延迟。

期待将此功能带给用户并收集反馈。正在继续致力于多项改进，例如“回指打断”功能，将允许用户在Alexa提供选项列表时，通过类似“就那个！”的语句来打断。希望通过对该功能的更新来取悦用户，同时开辟新的科学领域以实现更多可能。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

Sambert批量生成语音：自动化脚本编写实战教程

Sambert批量生成语音：自动化脚本编写实战教程 1. 为什么你需要这个教程你是不是也遇到过这些情况： 要给几十个产品文案配语音，手动点十几次网页界面，手都点酸了；做教学视频时需要统一音色的旁白，但每次…

李华

BabelDOC深度评测：从技术原理到实战应用的完整路径

BabelDOC深度评测：从技术原理到实战应用的完整路径【免费下载链接】BabelDOC Yet Another Document Translator 项目地址: https://gitcode.com/GitHub_Trending/ba/BabelDOC 文档处理工具在当今信息爆炸的时代扮演着至关重要的角色，而PDF翻译引…

李华

音频同步优化：让Live Avatar口型更自然

音频同步优化：让Live Avatar口型更自然 1. 为什么口型不同步是数字人体验的“致命伤” 你有没有试过用数字人生成一段带语音的视频，结果发现人物嘴巴张合的节奏和声音完全对不上？就像看一部配音严重错位的老电影——明明在说“你好”&#…

李华

如何3步搞定视频离线保存？这款工具让复杂操作变简单

如何3步搞定视频离线保存？这款工具让复杂操作变简单【免费下载链接】bilidown 哔哩哔哩视频解析下载工具，支持 8K 视频、Hi-Res 音频、杜比视界下载、批量解析，可扫码登录，常驻托盘。项目地址: https://gitcode.com/gh_mirror…

李华

FSMN-VAD本地运行不卡顿，资源占用低到惊讶

FSMN-VAD本地运行不卡顿，资源占用低到惊讶你有没有试过在本地跑一个语音端点检测工具，结果刚点下“开始”，CPU就飙到95%，风扇狂转，浏览器卡成PPT？或者等了半分钟，界面才慢吞吞吐出一行“未检测…

李华

Qwen-Image-Edit-2511为什么适合电商？三大理由说清

Qwen-Image-Edit-2511为什么适合电商？三大理由说清你有没有算过一笔账： 一场大促前，运营团队要更新800张商品主图——每张图需替换促销标签、调整背景色、统一字体间距、去掉平台水印…… 如果交给设计师，按人均3分钟/张计算&am…

李华