news 2026/4/23 15:50:17

微软开源VibeVoice-ASR

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
微软开源VibeVoice-ASR

VibeVoice-ASR是一个统一的语音转文本模型,专为处理长达60分钟的长篇音频而设计,可一次性生成包含说话人(Who)、时间戳(When)和内容(What)的结构化转录,并支持自定义热词

➡️代码库:microsoft/VibeVoice

➡️演示:VibeVoice-ASR演示

🔥 核心功能

  • 🕒 60分钟单次处理:
    与传统ASR模型将音频切割为短片段(常丢失全局语境)不同,VibeVoice ASR支持长达60分钟的连续音频输入(64K令牌长度内)。这确保了对整段音频中说话者的持续追踪和语义连贯性。

  • 👤 自定义热词:
    用户可提供定制热词(如特定人名、专业术语或背景信息)来引导识别过程,显著提升领域专用内容的识别准确率。

  • 📝 结构化转录(何人、何时、何言):
    该模型同步完成语音识别、说话人分离和时间戳标记,生成结构化输出,清晰标注何人何时说了什么内容

性能评估


安装与使用

请参考 GitHub README 文档。

许可协议

本项目采用 MIT 许可协议授权。

联系方式

本项目由微软研究院成员开发。我们欢迎用户的反馈与合作。如果您有任何建议、疑问,或发现技术存在异常/冒犯性行为,请联系 VibeVoice@microsoft.com。
若团队收到不良行为报告或自主发现问题,我们将在此代码库中发布相应的修复方案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 12:20:23

电脑如何恢复删除的文件?6个方法分享,找回文件超简单!

随着工作对电脑依赖程度的加深,电脑中的文件数量也在持续攀升。若不及时清理,磁盘空间很快就会被占满,影响电脑的正常使用。普通删除文件只是将文件移至回收站,无法有效释放磁盘空间。因此,许多人会直接使用【ShiftDel…

作者头像 李华
网站建设 2026/4/23 10:46:25

一站式解决方案!洗车行业必备小程序系统功能清单大公开

温馨提示:文末有资源获取方式寻找一款能同时满足平台运营与单店管理需求的洗车行业小程序?我们为您梳理了一份来自最新升级版系统的详尽功能清单。该版本以提升运行速度和操作体验为核心,对前后端进行了全方位革新,旨在为洗车服务…

作者头像 李华
网站建设 2026/4/23 12:17:59

Java版LeetCode热题100之寻找重复数:深入解析与实战应用

Java版LeetCode热题100之寻找重复数:深入解析与实战应用 本文目标:全面、系统地讲解 LeetCode 第287题「寻找重复数」(Find the Duplicate Number),从题目理解、多种解法推导、代码实现到面试技巧和实际应用场景&#…

作者头像 李华
网站建设 2026/4/23 12:20:38

转存WORD到CKEDITOR时公式乱码如何修复?

PHP程序员的Word导入插件探索记 各位老铁们好啊!我是西安一名苦逼的PHP程序员,最近接了个CMS企业官网的活儿,客户突然甩给我个需求,让我整个人都不好了… 客户的"小"需求 客户说:“小王啊,我们…

作者头像 李华
网站建设 2026/4/22 13:55:41

国外学术论文怎么找:高效检索国外学术论文的实用方法与途径指南

刚开始做科研的时候,我一直以为: 文献检索就是在知网、Google Scholar 里反复换关键词。 直到后来才意识到,真正消耗精力的不是“搜不到”,而是—— 你根本不知道最近这个领域发生了什么。 生成式 AI 出现之后,学术检…

作者头像 李华
网站建设 2026/4/23 12:11:14

汽车制造企业网页开发,JAVA如何处理超大附件的分块?

大文件传输系统建设方案 一、需求分析与技术选型 作为项目负责人,针对公司核心需求,需解决以下关键技术挑战: 跨平台兼容性:需兼容IE8等老旧浏览器及Windows 7环境高并发稳定性:避免传统打包下载导致的内存溢出问题…

作者头像 李华