余弦相似度怎么算？CAM++输出向量可直接调用-深圳市維司達科技有限公司

余弦相似度怎么算？CAM++输出向量可直接调用

你刚跑通CAM++说话人识别系统，点开「特征提取」页面，看到那串192维的数字——它到底是什么？为什么两段语音的相似度能用一个0到1之间的数表示？这个数是怎么算出来的？更重要的是：不用重写模型、不装额外库、不改一行源码，你就能立刻用上这个向量做自己的事。

这篇文章不讲论文推导，不堆数学符号，就用你刚导出的embedding.npy文件，手把手带你把“余弦相似度”从概念变成终端里敲出的一行命令、一段可复用的Python函数、一个能嵌入你业务系统的实用能力。

1. 先搞懂一件事：CAM++输出的不是“分数”，是“坐标”

很多人第一次看到CAM++界面里的“相似度分数：0.8523”，下意识以为这是模型内部算好的结果，自己只能看、不能动。其实完全相反——这个分数是你随时可以自己重新计算、自由调整、甚至替换算法的中间产物。

CAM++真正输出的核心，是每个音频对应的192维特征向量（Embedding）。你可以把它想象成一个人在192维空间里的“声纹坐标”。

说“你好”的人A，坐标可能是[0.12, -0.45, 0.88, ..., 0.03]（共192个数）
说“你好”的人B，坐标可能是[0.13, -0.44, 0.87, ..., 0.04]
说“再见”的人C，坐标可能是[-0.61, 0.22, -0.15, ..., 0.91]

关键来了：两个向量越“靠近”，它们代表的说话人就越可能相同。
而“靠近”在高维空间里，最自然、最稳定、最被工业界验证的方式，就是——余弦相似度。

1.1 为什么不是欧氏距离？为什么不是相关系数？

简单说：余弦相似度只关心方向，不关心长度。
这恰恰符合声纹识别的本质需求。

同一个人说同一句话，音量大小、录音距离、背景噪声都会让向量“长度”剧烈变化，但“方向”（即声纹本质特征）相对稳定；
欧氏距离会把“音量小但方向一致”误判为“不相似”；
相关系数对零均值要求苛刻，且在192维下统计意义弱；
余弦值天然落在[-1, 1]区间，我们只取[0,1]部分（CAM++默认做归一化），数值直观、阈值好调、跨模型可比。

一句话记住：你不是在比较两个数字的差值，而是在看两条射线的夹角有多小。夹角越小，余弦值越接近1，人就越像。

2. 动手算：三步搞定余弦相似度（附可运行代码）

别被“192维”吓住。NumPy一行就能算，连循环都不用写。我们分三步走，每步都对应你实际操作中的一个动作。

2.1 第一步：加载两个向量（就是你导出的.npy文件）

CAM++在「特征提取」页面勾选“保存 Embedding 到 outputs 目录”后，会生成类似这样的文件：

outputs/outputs_20260104223645/embeddings/ ├── speaker1_a.npy ├── speaker1_b.npy └── speaker2_a.npy

现在，打开Python终端或Jupyter，执行：

import numpy as np # 加载两个音频的embedding emb1 = np.load('outputs/outputs_20260104223645/embeddings/speaker1_a.npy') emb2 = np.load('outputs/outputs_20260104223645/embeddings/speaker1_b.npy') print(f"向量1形状: {emb1.shape}") # 应该输出 (192,) print(f"向量2形状: {emb2.shape}") # 应该输出 (192,) print(f"向量1前5维: {emb1[:5]}") print(f"向量2前5维: {emb2[:5]}")

你会看到两组192个浮点数。它们看起来毫无规律？正常。这就是深度模型学到的“声纹指纹”——人类看不懂，但机器认得准。

2.2 第二步：归一化（让它们站在同一起跑线上）

余弦相似度公式是：
sim = (A · B) / (||A|| × ||B||)
其中A · B是点积，||A||是A的模长（即向量长度）。

手动算？太麻烦。NumPy有现成工具：

# 方法1：手动归一化 + 点积（便于理解原理） emb1_norm = emb1 / np.linalg.norm(emb1) # 除以自身长度，得到单位向量 emb2_norm = emb2 / np.linalg.norm(emb2) similarity = np.dot(emb1_norm, emb2_norm) # 单位向量点积 = 余弦值 # 方法2：一行流（推荐，更简洁） similarity = np.dot(emb1, emb2) / (np.linalg.norm(emb1) * np.linalg.norm(emb2)) print(f"余弦相似度: {similarity:.4f}") # 输出示例：余弦相似度: 0.8523

这个结果，和你在CAM++「说话人验证」页面看到的“相似度分数：0.8523”完全一致。
你不是在复现，你是在接管——从此，这个分数由你定义、由你计算、由你用于任何场景。

2.3 第三步：封装成函数，随时调用

把上面逻辑打包成一个干净函数，以后只要传两个文件路径，秒出结果：

def calc_similarity(embedding_path1, embedding_path2): """ 计算两个CAM++ embedding文件的余弦相似度 Args: embedding_path1 (str): 第一个.npy文件路径 embedding_path2 (str): 第二个.npy文件路径 Returns: float: 余弦相似度，范围[0,1]（已确保非负） """ emb1 = np.load(embedding_path1) emb2 = np.load(embedding_path2) # 防御性检查：确保维度一致 if emb1.shape != emb2.shape or emb1.shape[0] != 192: raise ValueError("Embedding维度必须为(192,)，且两个向量维度需一致") # 计算余弦相似度 dot_product = np.dot(emb1, emb2) norm_product = np.linalg.norm(emb1) * np.linalg.norm(emb2) # 避免除零（极小概率，但安全起见） if norm_product == 0: return 0.0 similarity = dot_product / norm_product # CAM++只关注正相关，负值视为0（实际中极少出现） return max(0.0, float(similarity)) # 使用示例 score = calc_similarity( 'outputs/outputs_20260104223645/embeddings/speaker1_a.npy', 'outputs/outputs_20260104223645/embeddings/speaker1_b.npy' ) print(f"验证结果: {score:.4f} → {' 是同一人' if score > 0.31 else '❌ 不是同一人'}")

这段代码你复制粘贴就能跑通，不需要安装新包（NumPy已随CAM++镜像预装），不依赖WebUI，不启动Gradio服务——纯离线、纯本地、纯可控。

3. 超越验证：你的192维向量还能做什么？

CAM++的Embedding不是一次性消耗品。它是一把万能钥匙，能打开多个实用场景的大门。下面这些，你今天就能试。

3.1 场景一：构建自己的声纹数据库（无需训练新模型）

想象你要管理公司100名员工的语音权限。传统做法是每次验证都上传两段音频——慢、占带宽、难管理。

用CAM++向量，你可以这样做：

import numpy as np import os from pathlib import Path # 步骤1：批量提取所有员工注册语音的embedding employee_embeddings = {} for audio_file in Path("employees_register/").glob("*.wav"): # 假设你已用CAM++脚本批量提取并保存为 employee_id.npy emb_path = f"embeddings/{audio_file.stem}.npy" if os.path.exists(emb_path): employee_embeddings[audio_file.stem] = np.load(emb_path) # 步骤2：实时验证时，只加载待验证向量，与数据库逐一比对 def identify_speaker(query_emb_path, threshold=0.5): query_emb = np.load(query_emb_path) best_match = None best_score = 0.0 for emp_id, emb in employee_embeddings.items(): score = calc_similarity(query_emb_path, f"embeddings/{emp_id}.npy") if score > best_score and score > threshold: best_score = score best_match = emp_id return best_match, best_score # 使用：传入一段新录音的embedding路径 # result_id, score = identify_speaker("temp_query.npy")

你没碰CAM++一行训练代码，却拥有了一个可扩展的声纹检索系统。新增员工？只需提取一次embedding，存入字典即可。

3.2 场景二：说话人聚类（发现未知身份）

你有一段10分钟会议录音，里面混着3-5个人的声音，但不知道谁说了哪些话。CAM+++聚类，5分钟搞定：

from sklearn.cluster import KMeans import matplotlib.pyplot as plt # 假设你已用滑动窗口切分音频，并提取了50个片段的embedding all_embeddings = np.stack([ np.load(f"segments/seg_{i:03d}.npy") for i in range(50) ]) # 形状: (50, 192) # KMeans聚类（k=3，假设3个说话人） kmeans = KMeans(n_clusters=3, random_state=42, n_init=10) labels = kmeans.fit_predict(all_embeddings) # 可视化（用PCA降到2D） from sklearn.decomposition import PCA pca = PCA(n_components=2) reduced = pca.fit_transform(all_embeddings) plt.scatter(reduced[:, 0], reduced[:, 1], c=labels, cmap='viridis') plt.title("会议语音片段声纹聚类结果") plt.xlabel(f"PCA1 ({pca.explained_variance_ratio_[0]:.2%}方差)") plt.ylabel(f"PCA2 ({pca.explained_variance_ratio_[1]:.2%}方差)") plt.colorbar(label="说话人ID") plt.show()

输出的散点图会清晰显示3个聚集簇——每个簇对应一个说话人。你甚至能回溯每个点对应哪段音频，完成自动分角色转录。

3.3 场景三：自定义相似度策略（不止是0.31）

CAM++默认阈值0.31，适合通用场景。但你的业务可能需要更严或更松：

业务场景	推荐策略	代码示意
银行级声纹登录	多向量投票：取用户3段注册语音，与待验证语音分别计算，取平均分	`scores = [calc_similarity(reg1, query), calc_similarity(reg2, query), calc_similarity(reg3, query)]` `final_score = np.mean(scores)`
客服对话质检	动态阈值：根据通话时长调整，短于5秒提高阈值至0.45	`threshold = 0.45 if duration_sec < 5 else 0.31`
社交App好友匹配	多维度加权：声纹相似度×0.7 + 语速相似度×0.3	`speed_sim = 1 - abs(speed1 - speed2) / max(speed1, speed2)`

核心思想：Embedding是原料，相似度是配方，业务规则才是最终产品。CAM++给你高质量原料，剩下的，由你按需烹饪。

4. 常见问题直答（来自真实用户提问）

Q1：我用CAM++提取的向量，能和其他模型（如ECAPA-TDNN）的向量混用计算相似度吗？

不能。
不同模型的Embedding空间是独立训练的，就像中文和英文单词向量不能直接点积一样。CAM++的192维向量只在CAM++空间内有意义。跨模型比对，必须统一用同一套模型提取。

Q2：为什么我算出来的相似度和CAM++界面显示的差0.0001？

这是浮点精度差异导致的正常现象。CAM++内部使用PyTorch张量计算，你用NumPy数组计算，底层BLAS库实现略有不同。只要差值在1e-4量级内，结果完全等效，可忽略。

Q3：我想把相似度计算集成到我的Java/Go服务里，怎么办？

不需要重写算法。CAM++导出的.npy文件是标准NumPy格式，几乎所有语言都有解析库：

Java：用 nd4j 或 JNumpy
Go：用 gonpy
JavaScript：用 ndarray

核心逻辑永远不变：加载两个192维数组 → 归一化 → 点积。

Q4：192维向量太大，能压缩吗？会影响精度吗？

可以降维，但强烈不建议。PCA或UMAP降到64维，相似度排序基本保留，但绝对值会漂移（比如0.85可能变成0.72），导致你调好的阈值失效。生产环境请坚持用原始192维。

Q5：有没有办法不用保存文件，直接在内存里调用CAM++的embedding提取功能？

可以。CAM++底层是PyTorch模型，你完全可以绕过WebUI，直接调用其推理函数：

# 伪代码（需参考CAM++源码路径） from speech_campplus_sv_zh-cn_16k.model import CAMPPModel model = CAMPPModel.from_pretrained("damo/speech_campplus_sv_zh-cn_16k-common") # 加载音频（需用torchaudio读取为tensor） waveform, sr = torchaudio.load("audio.wav") # 预处理（Fbank等）... features = model.preprocess(waveform) embedding = model(features) # 直接输出192维tensor