news 2026/5/8 17:18:47

多项式自编码器:压缩嵌入向量新方法,NDCG 提升显著!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
多项式自编码器:压缩嵌入向量新方法,NDCG 提升显著!

多项式自编码器:压缩嵌入向量新解法

2026 年 5 月 5 日,文章聚焦嵌入、PCA、自编码器、套娃向量、检索等领域。除量化外,压缩嵌入向量常用主成分分析(PCA),但它是线性投影,而神经网络嵌入结构非线性,存在线性解码器无法触及的方差。本文介绍在 PCA 基础上添加二次解码器的闭式方法,编码器用普通 PCA,解码器是二次多项式提升加岭回归,无需随机梯度下降等,只需一次 `np.linalg.solve` 运算。

实验结果:多项式自编码器优势明显

在 BEIR/FiQA 数据集上,用 `mxbai - embed - large - v1` 模型,每个向量预算 512 字节,评估指标为 NDCG@10。结果显示,PCA 实现 4 倍内存压缩,但 NDCG 下降 3.58 个百分点;多项式自编码器(poly - AE)256 维时,NDCG 仅下降 0.85 个百分点,比 PCA 提升 2.73 个百分点。在四个模型测试中,多项式自编码器在 d = 128 时提升 1 到 4.4 个百分点,d = 256 时提升 0.03 到 2.7 个百分点。

对比内容:四种方法各有特点

每次测量含四条线:原始为完整嵌入向量,是质量上限;套娃向量(matryoshka)对不同模型处理方式不同;PCA 取语料库协方差前 d 个特征向量;多项式自编码器用 PCA 编码,二次多项式解码。固定 `d` 下,四种方法每个向量存储 `2d` 字节。

实验设置:贴合生产部署

BEIR 是标准检索数据集集合,评估指标为 NDCG@10。PCA 和多项式自编码器采用直推式拟合,统计数据在要压缩的语料库上计算,查询不参与拟合,推理时用固定编码器/解码器,与生产部署相符。主要实验用 FiQA 数据集,含 57K 个文档、648 个查询和 1706 个 qrels。

主要表格:多模型验证优势

在 FiQA 数据集上,不同模型在 256 个半精度浮点(512 字节/向量)和 128 个半精度浮点(256 字节)预算下的 NDCG@10 结果表明:多项式自编码器在所有四个模型上始终优于 PCA;d = 256 时,与原始向量相比,NDCG 损失 0.7 - 1.4 个百分点,实现 4 倍内存压缩;对于未进行套娃训练的模型,套娃向量表现比 PCA 更差。

二次解码器:作用与适用范围

PCA 是线性基线,二次解码器添加线性解码器无法触及的非线性部分。多项式自编码器相对于 PCA 的提升,在 d = 128 时始终高 1 - 4 个百分点,是最佳适用范围;d = 256 时,差距因模型而异。各向异性越强,提升越大。对于非 MRL 模型,套娃向量表现比 PCA 差。多项式自编码器在语料库不可用时无法工作,如多租户 SaaS、流式索引、边缘推理等场景。在操作员拟合场景中,d = 256 实现 4 倍压缩,d = 128 实现 8 倍压缩,多项式自编码器优势明显。

线性投影信息损失:锥体效应致信息丢失

PCA 是最佳线性投影方法,但数据具非线性结构时,线性解码器无法触及。变压器模型嵌入向量有锥体效应,点云集中在单位球面上的狭窄锥体内,具强烈非线性结构。PCA 只能捕捉线性椭球体投影,流形曲率信息不可见,各向异性越强,PCA 无法触及的方差越多,因此需能处理坐标二次组合的解码器。

多项式解码器:线性提升实现非线性解码

需非线性解码器,直接训练神经网络会失去闭式解优势。采用多项式提升,将向量提升到所有次数不超过 2 的单项式,对提升后的向量进行线性回归,相当于在原始空间进行二次回归。编码器用前 d 个 PCA 分量,解码器是从 M 维提升空间到 D 维原始空间的线性回归,训练解码器只需一次 `np.linalg.solve` 运算。多项式自编码器结构包括编码器、解码器、重建和残差,无需反向传播等,计算时间因 d 值而异。PCA 后原始 `p` 坐标各向异性大,需进行逐轴标准差归一化。

小语料库问题:过拟合致结果假象

在 SciFact 数据集上,d = 256 时多项式自编码器 NDCG@10 与原始向量差距小,与 PCA 差距大;在 FiQA 数据集上,与原始向量差距稳定,但与 PCA 差距缩小。原因是 SciFact 数据集岭回归过拟合,记忆语料库而非有更好泛化能力。安全经验法则是 `N` 至少是 `M = (d + 1)(d + 2) / 2` 的 5 - 10 倍。

压缩残差:结合 TurboQuant 实现高效压缩

自编码器将向量重新打包为 `(p, V_resid)` 对,需对残差进行量化。多项式自编码器去除各向异性,与 TurboQuant 结合可高效量化残差。Qdrant 1.18 发布的 TurboQuant 修改版本,实现与“多项式自编码器 + 残差量化”混合方法大致相同的召回率,且节省向量字节预算。

方法来源:相邻领域技术应用

作者在化学信息学中熟悉多项式提升方法,在 Qdrant 工作时将“PCA + 二次解码器”应用于神经嵌入。相关构建方法在物理系统数值建模中被称为二次流形,已有多篇论文研究。该构建方法在物理系统模拟中应用,嵌入向量实验结果表明其也适用于此。这种组合未成为主流机器学习方法,可能因研究社区重叠少、多项式方法与核技巧相关、闭式解变体超出常见关注范围。

方法局限性:复杂度与适用范围受限

该方法存在一些局限性:立方复杂度的岭回归求解在 d 较大时难以处理,适用于 d ≈ 200 - 256 范围;直推式拟合在语料库变化时解压缩效果下降;小样本数量时岭回归易过拟合;三次多项式提升维度高,岭回归求解不切实际且过拟合严重。

下一步尝试方向:探索更多可能

未来可在更大语料库和更复杂模型上实验,如在 MS MARCO 数据集上用 e5 - mistral - 7b 类模型;研究提升多项式次数的效果;探索无法计算套娃向量场景下的混合方法。

代码和复现:可在 GitHub 找到相关代码

BEIR 数据集加载器、编码器、PCA 初始化、多项式提升、岭回归、检索等代码可在 [github.com/IvanPleshkov/poly - autoencoder](https://github.com/IvanPleshkov/poly - autoencoder) 找到。最小运行步骤包括克隆仓库、创建虚拟环境、安装依赖、运行评估脚本。在 M 系列 MacBook 上,首次运行会下载模型和数据集,编码语料库并打印 NDCG@10 表格。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 17:18:45

别再为未优化模型砸钱!12 项架构优化大幅降低 AI 流程单位成本

别再为未优化模型砸钱!12 项架构优化措施大幅降低 AI 流程单位成本采用微调、量化等巧妙的捷径,既能削减训练成本,又不会损失准确性。优化人工智能流程,不能只做表面的硬件调整,而要从根本上改变模型处理数据的方式。工…

作者头像 李华
网站建设 2026/5/8 17:17:45

简化kanzi工作流

1. 写xml 1.1 递归序列化DataObject树为字符串 1.2 计算字符串哈希 1.3 tinyxml2写XML文件 2. 插件读xml2.1 定时读取xml文件,并解析 2.2 以RootPage为根节点,递归更新其DataContext属性 2.3 预览画面更新

作者头像 李华
网站建设 2026/5/8 17:17:37

为openclaw智能体工作流配置taotoken作为后端大模型服务提供方

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为OpenClaw智能体工作流配置Taotoken作为后端大模型服务提供方 应用场景类,针对使用OpenClaw框架构建智能体工作流的开…

作者头像 李华
网站建设 2026/5/8 17:17:37

deepsee

Identify the entity: DeepSeek (月之暗面). Identify the core task: Summarize its core technical advantages in ~1000 characters. Recall/Search information about DeepSeek: What is it known for? What are its stated goals or technical focuses? What it is: A p…

作者头像 李华