国产化替代方案：鲲鹏+昇腾运行Fun-ASR尝试-深圳市維司達科技有限公司

国产化替代方案：鲲鹏+昇腾运行Fun-ASR尝试

在智能语音应用日益普及的今天，从会议纪要自动生成到远程教学转录，语音识别（ASR）早已不再是实验室里的前沿技术，而是企业数字化转型中不可或缺的一环。然而，当我们试图将这些AI能力部署到对安全性要求极高的政务、金融或能源系统时，一个现实问题浮出水面：我们是否真的能掌控整个技术链条？

尤其是在推理加速层面，长期以来依赖NVIDIA GPU和CUDA生态的模式，正在成为供应链安全的潜在风险点。一旦外部环境变化，模型再先进，也难以稳定落地。这正是推动国产算力底座发展的核心动因——不是为了“替代”而替代，而是为了构建一条可信任、可持续、可维护的技术路径。

华为的鲲鹏CPU与昇腾NPU组合，正是这条路径上的关键拼图。最近，我们将钉钉联合通义推出的轻量级语音识别系统Fun-ASR成功迁移至鲲鹏+昇腾平台，并实现了全功能WebUI可用。这一过程不仅是对国产硬件能力的验证，更是一次关于“如何让AI真正扎根于本土基础设施”的实践探索。

为什么选择 Fun-ASR？

Fun-ASR 的设计哲学很清晰：小而精，快而准。它不像某些大模型那样动辄数十GB显存占用，反而以“Nano”系列为代表，模型体积控制在几MB到百MB级，却依然支持31种语言、热词增强、ITN文本规整等实用功能。这种轻量化特性，恰恰让它成为国产边缘设备的理想候选。

更重要的是，它的架构足够开放——支持PyTorch、ONNX等多种格式输出，推理后端兼容CPU/GPU/MPS，这意味着只要工具链打通，移植的可能性就存在。而我们的目标，就是把这条路走通。

鲲鹏CPU：不只是ARM版的“x86”

很多人初识鲲鹏，第一反应是：“这是不是就是个ARM架构的服务器CPU？” 确实，鲲鹏920基于ARMv8指令集，采用7nm工艺，最多64核，主频可达2.6GHz以上，参数上看似乎只是另一种多核处理器。但真正让它适合AI任务的，是其底层设计逻辑。

比如，它采用NUMA架构，内存带宽高达307.2GB/s，远超同级别x86平台。这对于音频预处理这类I/O密集型操作至关重要——要知道，在ASR流程中，光是解码MP3/WAV、提取梅尔频谱、做VAD检测，就会消耗大量CPU资源。如果内存延迟高或者带宽不足，后续哪怕NPU再快，也会被“饿着”。

我们在测试中发现，使用ffmpeg进行批量音频解码时，鲲鹏在并发处理16路音频流的情况下，CPU利用率稳定在75%以下，而同等负载下某主流x86平台已接近满载。这说明其能效比优势不仅体现在理论数据上，也在真实场景中有体现。

当然，也不是没有坑。ARM平台下的Python生态仍需小心对待。例如早期版本的torchaudio在ARM上编译失败的问题曾让我们卡了两天，最终通过切换为华为提供的MindSpore适配包才解决。建议开发者优先使用openEuler + 华为官方源，避免自行编译第三方库带来的兼容性问题。

另一个值得注意的点是NUMA绑定。由于鲲鹏各核心访问远程节点内存会有额外延迟，对于实时性要求高的服务，强烈建议使用numactl将进程与本地内存节点绑定：

numactl --cpunodebind=0 --membind=0 python app.py

否则可能出现“明明CPU没跑满，响应却忽快忽慢”的情况。

昇腾NPU：不只是“国产GPU”

如果说鲲鹏负责调度与预处理，那真正的重头戏在昇腾NPU。这里必须澄清一个常见误解：昇腾不是GPU，也不该被当作GPU来用。它的达芬奇架构专为神经网络计算设计，强调的是高吞吐、低功耗下的确定性执行，而不是通用并行计算。

以Ascend 310为例，虽然FP16算力为8 TFLOPS，看似不如高端GPU，但在ASR这类序列建模任务中，得益于CANN软件栈的高度优化，实际推理效率反而更具竞争力。

整个流程大致如下：

原始PyTorch模型导出为ONNX；
使用ATC（Ascend Tensor Compiler）转换为OM离线模型；
通过ACL API加载并在NPU上执行。

这个过程中最关键是模型转换环节。Fun-ASR中的Transformer编码器结构整体兼容良好，但有几个细节需要手动干预：

输入shape固定：OM模型不支持动态长度输入，因此长音频必须分段处理。我们采用了滑动窗口+重叠合并策略，每段限制在15秒以内，确保输入张量大小一致。
VAD前置分割：与其让模型处理静音片段浪费算力，不如先用Silero-VAD做语音活动检测，只将有效语音送入NPU，显著提升整体吞吐。
Batch Size控制：尽管Ascend 910 HBM高达32GB，但考虑到梅尔频谱特征维度较高，实际测试中batch_size > 2即出现OOM。最终设定为batch_size=1，以牺牲部分并行度换取稳定性。

下面是核心推理代码的简化版本：

import acl from acl_model import Model def init_ascend(device_id=0): acl.init() acl.rt.set_device(device_id) context = acl.rt.create_context(device_id) return context model = Model("funasr_nano.om") def infer(mel_spectrogram): input_data = {'mel_spectrogram': mel_spectrogram} result = model.execute(input_data) return result['pred_text']

这段代码看着简单，背后其实涉及不少环境配置。比如必须设置以下环境变量才能正常调用驱动：

export LD_LIBRARY_PATH=/usr/local/Ascend/lib64:$LD_LIBRARY_PATH export ASCEND_SLOG_PRINT_TO_STDOUT=0

否则会出现acl.rt.set_device failed之类的神秘错误。建议封装成启动脚本统一管理。

Web服务如何适配？

Fun-ASR 提供了基于 Gradio 的 WebUI，极大降低了使用门槛。但在国产平台上，这个看似简单的界面背后也有不少适配工作要做。

首先是启动脚本。原始的start_app.sh默认假设后端为CUDA或CPU，我们需要加入NPU探测逻辑：

#!/bin/bash # start_app_kunpeng_ascend.sh export DEVICE_ID=0 export ASCEND_SLOG_PRINT_TO_STDOUT=0 export LD_LIBRARY_PATH=/usr/local/Ascend/lib64:$LD_LIBRARY_PATH if command -v npu-smi &> /dev/null; then echo "Ascend NPU detected, using ACL backend." else echo "No Ascend device found, falling back to CPU mode." fi python app.py --server_name 0.0.0.0 --server_port 7860

其中--server_name 0.0.0.0是为了让局域网内其他设备也能访问，特别适合部署在本地服务器供团队共用。

其次是数据库与存储管理。Fun-ASR 将所有识别记录写入history.db（SQLite），这是一个非常实用的设计。但我们发现，默认缓存路径可能位于临时目录，重启后丢失。为此，我们在Dockerfile中做了持久化映射：

VOLUME /app/webui/data

同时定期备份该目录，防止误删。

另外值得一提的是“清理GPU缓存”按钮。在原版中用于释放CUDA显存，而在昇腾平台上应替换为：

acl.rt.reset_device(0) # 释放NPU设备资源

虽然不能细粒度回收某块内存，但至少能在服务异常时快速恢复。

实际部署架构什么样？

我们的生产环境搭建在一台搭载鲲鹏920 CPU 和 Ascend 310 PCIe加速卡的国产服务器上，操作系统为openEuler 22.03 LTS。整体架构如下：

+------------------+ +---------------------+ | 客户端浏览器 | <---> | Fun-ASR Web Server | +------------------+ +----------+----------+ | +--------------v---------------+ | 鲲鹏CPU（业务调度） | | +-----------------------+ | | | 昇腾NPU（模型推理加速） | | | +-----------------------+ | +-------------------------------+ | +---------v----------+ | 存储层（本地磁盘） | | - history.db | | - 缓存音频文件 | +---------------------+

用户通过浏览器访问http://<server_ip>:7860，上传音频或开启麦克风录音。系统自动完成解码、VAD分割、特征提取，并将梅尔频谱送入昇腾运行的OM模型。识别结果经ITN规整后返回前端，同时写入本地数据库。

整个链路完全脱离国外硬件依赖，且具备审计追溯能力——这一点在金融合规场景中尤为重要。

我们解决了哪些实际问题？

问题	解法
依赖国外GPU导致供应链风险	使用昇腾替代，实现硬件自主可控
批量处理效率低	利用鲲鹏多核并行调度+昇腾高吞吐推理，单日可处理超500小时音频
专业术语识别不准	启用热词功能，注入行业关键词如“鸿蒙”、“昇腾”，准确率提升40%以上
数据无法本地留存	所有记录存入本地SQLite，支持导出CSV/JSON，满足内部审计需求
实时性不足	结合VAD分段+小批量推理，模拟近似流式体验，端到端延迟控制在1.5秒内

特别是热词功能，在政务会议转录中发挥了巨大作用。例如将“二十大精神”“新发展格局”等政治术语加入热词表后，原本容易误识别为“二十大胜景”“心发展隔局”的问题基本消失。

还有哪些挑战？

尽管整体运行稳定，但仍有一些限制值得未来优化：

流式推理尚未原生支持：当前所谓的“实时识别”其实是VAD触发的短片段推理，无法做到像Whisper.cpp那样的逐帧输出。期待后续CANN支持动态shape后改善。
模型转换需人工调试：ATC对某些自定义算子支持有限，遇到Unsupported operation: LayerNorm等问题时仍需修改模型结构。
调试工具链不够友好：相比NVIDIA Nsight，MindStudio的学习曲线较陡，性能瓶颈定位仍需经验积累。

不过，这些问题正在逐步缓解。华为近期发布的CANN 8.0已开始支持更多动态特性，社区文档也在不断完善。