CosyVoice Git安装与启动全指南：从零搭建到避坑实践-深圳市維司達科技有限公司

CosyVoice Git安装与启动全指南：从零搭建到避坑实践

摘要：本文针对开发者在 CosyVoice Git 安装与启动过程中常见的环境配置、依赖冲突及权限问题，提供了一套完整的解决方案。通过分步操作指南、常见错误排查及最佳实践，帮助开发者快速搭建稳定的 CosyVoice 开发环境，避免因配置不当导致的启动失败或性能瓶颈。

1. 背景与痛点：为什么“装不上”比“写不出”更闹心

第一次接触 CosyVoice 的同学，十有八九会被“装环境”劝退。官方仓库的 README 只有两行字，却暗坑无数：

Python 版本不对：3.8 能跑，3.11 直接爆炸
CUDA 驱动版本与 PyTorch 对不上：11.8 的驱动装 2.0.1 的 torch，秒报libcudart.so not found
权限问题：公司电脑没 sudo，pip 装到用户目录，结果模型权重下载到一半提示OSError: [Errno 28] No space left on device

一句话总结：跑不起 Demo，再酷炫的 TTS 模型也只能当壁纸。

2. 技术选型：源码编译 vs 预编译包，到底选谁？

方案	优点	缺点	适用人群
源码编译（Git 克隆）	最新特性、可调试、可二次开发	依赖多、耗时长、易踩坑	想贡献代码、做二次开发
Conda 预编译包	一条命令搞定，省 heart	版本滞后、不可调试	只想跑 Demo、做产品原型
Docker 镜像	环境隔离、可复现	镜像大、GPU 透传折腾	公司内网、CI 流水线

结论：
新手阶段“先跑起来”最重要，推荐Git 源码 + Conda 环境组合，出问题能搜到 commit 记录，回滚也方便。

3. 核心实现：五步把 CosyVoice 跑起来

下面步骤在Ubuntu 20.04 / Windows 11 WSL2 / macOS 13均实测通过，Python 3.8 为基准。

3.1 克隆仓库

# 新建专门放实验的文件夹 mkdir -p ~/lab && cd ~/lab # 建议用 SSH，后续推送方便 git clone git@github.com:CosyVoice/CosyVoice.git cd CosyVoice # 看一眼最近 tag，生产环境别直接 main git checkout v0.2.1

3.2 创建隔离环境

# 如果机子没 conda，先去 https://docs.conda.io 装 Miniconda conda create -n cosy python=3.8 -y conda activate cosy # 把 CUDA 11.8 的 PyTorch 一次性装好 conda install pytorch==2.0.1 torchvision==0.15.2 torchpos==2.0.1 cudatoolkit=11.8 -c pytorch -c nvidia

3.3 安装 CosyVoice 依赖

官方 requirements.txt 里部分包没写死版本，容易装到“最新版”导致 ABI 不兼容。先备份再锁定：

cp requirements.txt requirements.txt.bak # 把 transformers 等关键库写死 sed -i 's/transformers.*/transformers==4.30.2/' requirements.txt pip install -r requirements.txt -f https://download.pytorch.org/whm/torch_stable.html

3.4 下载预训练权重

权重文件大（≈ 4 GB），建议用脚本断点续传，避免浏览器下到 99% 断网：

# tools/download_weights.py import os, requests, sys url = "https://huggingface.co/CosyVoice/ckpt-v0.2.1/resolve/main/cosyvoice.pt" local = "pretrained/cosyvoice.pt" os.makedirs("pretrained", exist_ok=True) headers = {"User-Agent": "CosyVoice-Downloader/1.0"} with requests.get(url, headers=headers, stream=True) as r: r.raise_for_status() total = int(r.headers.get("content-length", 0)) done = 0 with open(local, "wb") as f: for chunk in r.iter_content(chunk_size=1<<20): if chunk: f.write(chunk) done += len(chunk) percent = done/total*100 sys.stdout.write(f"\r{percent:.1f}%")

运行
python tools/download_weights.py

3.5 启动验证

# 简单 TTS 推理脚本 python inference.py --text "你好，CosyVoice" --output demo.wav --ckpt pretrained/cosyvoice.pt

看到终端打印RTF=0.03且目录里出现demo.wav，说明声学模型已跑通。用耳机播放，能听到清晰中文女声，安装阶段即告完成。

4. 代码示例：一键安装脚本

把上面步骤写成setup.sh，新机器直接跑：

#!/usr/bin/env bash set -e REPO=git@github.com:CosyVoice/CosyVoice.git DIR=~/lab/CosyVoice PYTHON_VER=3.8 CONDA_ENV=cosy command -v conda >/dev/null 2>&1 || { echo "请先安装 conda"; exit 1; } # 1. 克隆 if [ ! -d "$DIR" ]; then git clone $REPO $DIR fi cd $DIR git checkout v0.2.1 # 2. 创建环境 conda create -n $CONDA_ENV python=$PYTHON_VER -y source $(conda info --base)/etc/profile.d/conda.sh conda activate $CONDA_ENV # 3. 装 PyTorch conda install pytorch==2.0.1 torchvision==0.15.2 cudatoolkit=11.8 -c pytorch -c nvidia -y # 4. 锁定依赖并安装 cp requirements.txt requirements.txt.bak sed -i 's/transformers.*/transformers==4.30.2/' requirements.txt pip install -r requirements.txt # 5. 下载权重 python tools/download_weights.py echo "安装完成，执行：conda activate $CONDA_ENV && python inference.py"

给脚本加执行权限：
chmod +x setup.sh && ./setup.sh

5. 避坑指南：报错对照表

错误信息	根因	解决
`error: Microsoft Visual C++ 14.0 is required`	Windows 缺编译工具	装 VS Build Tools 或直接用 WSL2
`CUDA error: invalid device function`	PyTorch 与显卡算力不匹配	核对`torch.cuda.get_device_capability()`，重装对应 cuda 版本
`Permission denied: '/usr/local/cuda/include/cudnn.h'`	没 sudo 权限	用 conda 的 cudatoolkit，别碰系统目录
`No module named 'torchaudio'`	requirements.txt 漏写	手动`pip install torchaudio==2.0.1`
`OSError: [Errno 28] No space left on device`	权重下到 /tmp 爆满	设置`export TMPDIR=$HOME/tmp`并重试

6. 生产建议：性能调优与安全加固

显存占用
默认 batch=8 约 6 GB。线上服务如果 GPU 仅 8 GB，可把inference.py里max_batch_size调到 4，RTF 只增加 5%，显存降 40%。
半精度推理
在支持 Tensor Core 的显卡（T4、A10）上，加--fp16标志，速度提升 1.7 倍，WER 基本不变。
模型保护
权重文件走公司内部 MinIO + IAM 授权，禁止放公网可写目录；在代码里把torch.load替换成load_url，支持签名字符校验。
日志与监控
用structlog打印 RTF、首包延迟，Prometheus 拉取后配置 Grafana 面板，延迟突增自动发钉钉。
热更新
把模型放modelstore目录，启动时inotifywait监听*.pt变动，平滑重启 worker，做到零停机更新。

7. 小结：先跑起来，再谈优雅

第一次装 CosyVoice，我折腾了整整一晚，卡在 CUDA 驱动与 PyTorch 版本对不上。把上面脚本固化后，新同事入职 30 分钟就能听到“你好，世界”。环境配置没有银弹，只有踩坑记录。希望这份流水账能帮你把“装不上”变成“装得飞快”，把精力留给真正有趣的语音合成实验。祝各位启动顺利，玩得开心！