ChatTTS 离线部署实战：从模型优化到生产环境避坑指南-深圳市維司達科技有限公司

ChatTTS 离线部署实战：从模型优化到生产环境避坑指南

摘要：把 500 MB 的 ChatTTS 塞进工控盒，跑 30 路并发还不爆显存，是怎样一种体验？本文记录一次真实交付：用 ONNX Runtime + 动态量化把首包加载从 18 s 压到 2.3 s，显存占用降 60%，99 分位延迟从 1.8 s 砍到 0.52 s。全部代码可直接复现，文末留一个开放问题，欢迎一起拆坑。

1. 原始方案有多痛？先上数据

模型体积：fp32 版 513 MB，加载时间 18.4 s（i7-1165G7 + 16 GB）
显存峰值：单路 1.9 GB，30 路并发直接 OOM（RTX-3060 12 GB）
延迟：首包 1.8 s，99 分位 1.82 s，业务方要求 < 0.6 s
CPU 占用：单路 170 %，四核直接跑满

一句话：不优化就别想上线。

2. 技术选型：ONNX vs TensorRT vs TorchScript

维度	ONNX Runtime	TensorRT	TorchScript
跨平台	Win/Linux/ARM	仅 NVIDIA
量化生态	官方支持 INT8/Dynamic	最强，但校准复杂	需自写
启动速度	冷启动 0.8 s	引擎编译 15 s+	2 s
体积	70 MB 运行时	1.2 GB 依赖	同 PyTorch
授权	MIT	免费但闭源	BSD

结论：边缘盒子 CPU/RTX 都有，交付周期两周，ONNX Runtime 最稳。

3. 核心实现三板斧

3.1 模型量化：FP32 → INT8（精度损失 < 0.12 MOS）

ChatTTS 的 Decoder 含大量Conv1d+GLU，对量化敏感。采用动态量化（activation 保持 fp16，weight 压到 int8），再对 embedding 层回退到 fp16，保证音色。

# quantize_chatts.py from onnxruntime.quantization import quantize_dynamic, QuantType model_fp32 = "chatts_decoder_fp32.onnx" model_int8 = "chatts_decoder_int8.onnx" quantize_dynamic( model_input=model_fp32, model_output=model_int8, op_types_to_quantize={'Conv', 'MatMul', 'Gemm'}, weight_type=QuantType.QInt8, optimize_model=True, use_external_data_format=False )

体积：513 MB → 138 MB
首包显存：1.9 GB → 0.75 GB
音色打分（MOS）：4.21 → 4.09，耳朵基本听不出。

3.2 动态批处理：把“等”变成“一起跑”

TTS 场景文本长度差异大，直接静态批会补零到 1500 token，浪费 40 % 算力。实现长度分桶 + 实时拼接：

维护 3 个桶：≤ 64、≤ 128、≤ 256 token
收到请求后 20 ms 内攒批，桶满或超时 50 ms 即发车
推理完按实际长度切片，返回音频

核心代码（简化）：

class DynamicBatcher: buckets: Dict[int, List[RequestItem]] = {64: [], 128: [], 256: []} def add(self, item: RequestItem) -> Optional[List[RequestItem]]: bucket = self._select_bucket(item.tokens) self.buckets[bucket].append(item) if len(self.buckets[bucket]) >= 4 or self._timeout(): batch = self.buckets[bucket].copy() self.buckets[bucket].clear() return batch return None

实测：单机 30 路 → 等效 42 路，CPU 利用率从 170 % 降到 110 %。

3.3 内存池化：别让 CUDA 碎片化拖慢

ONNX Runtime 默认ArenaAllocator会频繁cudaMalloc/cudaFree，高并发下显存碎片飙升。自写对象池复用InferenceSession的输入/输出OrtValue：

预分配 8 组{'input_ids': OrtValue, 'attention_mask': OrtValue}
用queue.LifoQueue做借还，线程安全
显存峰值再降 18 %，99 分位延迟抖动 < 30 ms

4. 可复现的 Python 部署包

安装依赖

pip install onnxruntime-gpu==1.17.0 numpy soundfile fastapi uvloop

完整入口（含类型注解、日志、with 语句）：

# chatts_server.py import logging, time, numpy as np from pathlib import Path from contextlib import asynccontextmanager import onnxruntime as ort from typing import List logging.basicConfig(level=logging.INFO, format="%(asctime)s | %(message)s") logger = logging.getLogger("chatts") class ChatTTSInfer: def __init__(self, model_path: Path, providers: List[str]): sess_opts = ort.SessionOptions() sess_opts.graph_optimization_level = ort.GraphOptimizationLevel.ORT_ENABLE_ALL self.session = ort.InferenceSession(str(model_path), sess_opts, providers=providers) self.pool = MemoryPool(self.session, pool_size=8) def synthesize(self, text: str) -> np.ndarray: tokens = tokenizer(text) # 自行实现 with self.pool.borrow() as buf: buf['input_ids'] = np.array(tokens, dtype=np.int64) buf['attention_mask'] = np.ones_like(buf['input_ids']) audio = self.session.run(None, buf)[0] return audio.squeeze() @asynccontextmanager async def lifespan(app): logger.info("warmup start") infer = ChatTTSInfer(Path("chatts_decoder_int8.onnx"), providers=["CUDAExecutionProvider"]) _ = infer.synthesize(" warmup ") logger.info("warmup ok") yield {"infer": infer} # FastAPI 路由略

异常兜底：捕获RuntimeException回退到 CPU，保证服务可用
日志埋点：记录首包延迟、批大小、池命中率，方便后续调优

5. 性能成绩单

测试机：i7-1165G7 + RTX-3060 12 GB，CUDA 12.2，ONNX Runtime 1.17

| 指标 | 原始 FP32 | 优化后 INT8 | 提升 | |---|---|---|---|---| | 模型体积 | 513 MB | 138 MB | ↓ 73 % | | 显存峰值（单路） | 1.9 GB | 0.75 GB | ↓ 60 % | | 内存峰值 | 2.3 GB | 1.0 GB | ↓ 56 % | | 首包延迟 | 1.8 s | 0.52 s | ↓ 71 % | | 99 分位延迟（30 并发） | 1.82 s | 0.52 s | ↓ 3.5× | | 最大并发路数 | 12 | 42 | ↑ 3.5× |

压力测试脚本（locust）：

locust -f stress.py --host http://127.0.0.1:8000 -u 30 -r 5 -t 60s

6. 避坑指南

量化精度损失调优
- 先跑MOS评测，> 0.2 下降就回退 embedding 层
- 对Conv1d采用per-channel量化，比per-tensor好 0.05 MOS
线程安全
- InferenceSession本身线程安全，但OrtValue复用需加锁，否则随机崩
- 用asyncio.to_thread把推理放线程池，避免 GIL 拖慢 FastAPI 主循环
模型版本兼容
- ONNX Opset 选 14，兼容 ORT 1.15+
- 每发版做polygraphy精度回归，防止节点融合导致音色漂移
- 文件名带 git-sha，回滚只需改软链，30 s 完成热切换