news 2026/4/23 10:48:04

Fun-Audio-Chat-8B 大型音频语言模型(Large Audio Language Model)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Fun-Audio-Chat-8B 大型音频语言模型(Large Audio Language Model)

Fun-Audio-Chat-8B 介绍

Fun-Audio-Chat-8B 是由 TONGYI Fun 团队开发的大型音频语言模型(Large Audio Language Model),专为自然、低延迟的语音交互设计,在语音问答、音频理解、语音函数调用等多个场景中表现优异,支持中英双语交互,采用 Apache 2.0 开源许可协议。(开源地址:https://huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B)

核心特性

1. 双分辨率语音表征(Dual-Resolution Speech Representations)

创新采用 “5Hz 共享骨干网络 + 25Hz 精细化头部” 架构,相比其他模型常用的 12.5Hz 或 25Hz 帧速率,在保持高语音质量的前提下,将 GPU 计算量减少近 50%,兼顾效率与性能。

2. 同尺寸模型顶尖性能

在 8B 参数级别模型中,于多个权威基准测试中排名前列,覆盖语音问答、音频理解、语音交互等核心场景,涉及的基准测试包括:

  • 语音问答(Spoken QA):OpenAudioBench、VoiceBench
  • 语音转语音(Speech-to-Speech):UltraEval-Audio
  • 音频理解(Audio Understanding):MMAU、MMAU-Pro、MMSU
  • 语音函数调用(Speech Function Calling):Speech-ACEBench、Speech-BFCL、Speech-SmartInteract
  • 语音指令遵循(Speech Instruction-Following):VStyle

3. 全面的语音交互能力

支持多样化语音相关任务,满足复杂场景需求:

  • spoken QA:语音问答,直接通过语音输入提问并获取语音 / 文本答案
  • 音频理解:解析音频内容、情感、场景等信息
  • 语音函数调用:通过语音指令触发特定功能调用
  • 语音指令遵循:精准响应语音形式的指令要求
  • 语音共情(Voice Empathy):模拟共情式语音反馈,提升交互自然度

模型详情

属性具体信息
模型尺寸约 8B 参数
架构设计双分辨率语音表征(Dual-Resolution Speech Representations)
支持语言英语(English)、中文(Chinese)
许可协议Apache 2.0(可商用、可修改,需保留原版权声明)
张量类型BF16
关联模型配套依赖 Fun-CosyVoice3-0.5B-2512 模型

环境要求

基础依赖

  • Python 版本:3.12
  • PyTorch 版本:2.8.0
  • 必要工具:ffmpeg(音频处理依赖)
  • 其他依赖:torchaudio==2.8.0 及 requirements.txt 中指定的包

硬件要求

  • 推理(Inference):GPU 显存 ≥ 24GB
  • 训练(Training):4 块 80GB 显存 GPU(如 A100 80GB)

安装与部署

1. 环境配置步骤

bash

运行

# 克隆代码仓库(含子模块)gitclone --recurse-submodules https://github.com/FunAudioLLM/Fun-Audio-ChatcdFun-Audio-Chat# 安装 ffmpegaptinstallffmpeg# 创建并激活 Conda 环境conda create -n FunAudioChatpython=3.12-y conda activate FunAudioChat# 安装 PyTorch 及 torchaudio(适配 CUDA 12.8)pipinstalltorch==2.8.0torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cu128# 安装其他依赖pipinstall-r requirements.txt

2. 模型下载

支持通过 Hugging Face Hub 或 ModelScope 两种方式下载预训练模型,需同时下载主模型和配套依赖模型:

方式一:通过 Hugging Face Hub 下载

bash

运行

# 安装 huggingface-hub 工具pipinstallhuggingface-hub# 下载主模型 Fun-Audio-Chat-8Bhf download FunAudioLLM/Fun-Audio-Chat-8B --local-dir ./pretrained_models/Fun-Audio-Chat-8B# 下载配套模型 Fun-CosyVoice3-0.5B-2512hf download FunAudioLLM/Fun-CosyVoice3-0.5B-2512 --local-dir ./pretrained_models/Fun-CosyVoice3-0.5B-2512
方式二:通过 ModelScope 下载

bash

运行

# 下载主模型 Fun-Audio-Chat-8Bmodelscope download --model FunAudioLLM/Fun-Audio-Chat-8B --local_dir pretrained_models/Fun-Audio-Chat-8B# 下载配套模型 Fun-CosyVoice3-0.5B-2512modelscope download --model FunAudioLLM/Fun-CosyVoice3-0.5B-2512 --local_dir pretrained_models/Fun-CosyVoice3-0.5B-2512

3. 快速推理

配置完成后,可通过以下命令快速运行核心功能:

bash

运行

# 设置 Python 路径exportPYTHONPATH=`pwd`# 语音转文本(Speech-to-Text)python examples/infer_s2t.py# 语音转语音(Speech-to-Speech)python examples/infer_s2s.py

引用规范

若使用该模型进行学术研究或商业开发,建议引用相关论文:

bibtex

@article{funaudiochat2025, title={Fun-Audio-Chat Technical Report}, author={Qian Chen and Luyao Cheng and Chong Deng and Xiangang Li and Jiaqing Liu and Chao-Hong Tan and Wen Wang and Junhao Xu and Jieping Ye and Qinglin Zhang and Qiquan Zhang and Jingren Zhou}, year={2025}, eprint={2512.20156}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.20156}, } @misc{tan2025drvoiceparallelspeechtextvoice, title={DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations}, author={Chao-Hong Tan and Qian Chen and Wen Wang and Chong Deng and Qinglin Zhang and Luyao Cheng and Hai Yu and Xin Zhang and Xiang Lv and Tianyu Zhao and Chong Zhang and Yukun Ma and Yafeng Chen and Hui Wang and Jiaqing Liu and Xiangang Li and Jieping Ye}, year={2025}, eprint={2506.09349}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.09349}, }

相关资源

  • 论文链接:Fun-Audio-Chat Technical Report、DrVoice
  • GitHub 代码库:https://github.com/FunAudioLLM/Fun-Audio-Chat
  • Demo 页面:参考官方仓库或 Hugging Face 模型页指引
  • 依赖项目:Transformers、LlamaFactory、Moshi、CosyVoice、Safetensors
  • https://ai-bot.cn/fun-audio-chat/
  • https://huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/20 4:32:03

为什么越来越多企业选择YOLO+GPU云服务进行视觉检测?

为什么越来越多企业选择YOLOGPU云服务进行视觉检测? 在现代工厂的流水线上,传送带以每分钟数百件的速度运转,质检员肉眼几乎无法跟上节奏。而与此同时,一台工业相机正以30帧/秒的速度连续拍摄,每一帧图像都需要在50毫秒…

作者头像 李华
网站建设 2026/4/17 19:32:37

YOLO目标检测中的尺度变化问题:FPN结构如何利用GPU

YOLO目标检测中的尺度变化问题:FPN结构如何利用GPU 在工业视觉系统中,一个常见的挑战是——产线上的零件大小不一:有的如整块电路板般显眼,有的却只是几像素宽的焊点缺陷。传统目标检测模型往往顾此失彼:大目标能检出&…

作者头像 李华
网站建设 2026/4/18 14:45:07

Milvus向量数据库终极指南:快速上手AI数据管理

Milvus向量数据库终极指南:快速上手AI数据管理 【免费下载链接】milvus A cloud-native vector database, storage for next generation AI applications 项目地址: https://gitcode.com/GitHub_Trending/mi/milvus Milvus作为云原生向量数据库,专…

作者头像 李华
网站建设 2026/4/19 1:44:00

KeySim:零成本打造你的专属3D虚拟键盘

KeySim:零成本打造你的专属3D虚拟键盘 【免费下载链接】keysim design and test virtual 3d keyboards. 项目地址: https://gitcode.com/gh_mirrors/ke/keysim 还在为键盘设计的高成本而烦恼吗?想要一款完全符合个人喜好的键盘却苦于无法先睹为快…

作者头像 李华
网站建设 2026/4/20 18:13:13

如何快速掌握Vue.js Apollo:新手的完整GraphQL集成指南

如何快速掌握Vue.js Apollo:新手的完整GraphQL集成指南 【免费下载链接】apollo 🚀 Apollo/GraphQL integration for VueJS 项目地址: https://gitcode.com/gh_mirrors/apollo2/apollo Vue.js Apollo 是专为 Vue.js 应用设计的 GraphQL 集成解决方…

作者头像 李华