Graphcore IPU探索：用交换机代替矩阵乘法的新范式-深圳市維司達科技有限公司

Graphcore IPU探索：用交换机代替矩阵乘法的新范式

在构建企业级AI系统时，我们常常面临一个尴尬的现实：尽管GPU算力逐年翻倍，但实际应用中的推理延迟和吞吐瓶颈却并未随之线性改善。尤其是在处理像文档检索增强生成（RAG）这类涉及动态控制流、稀疏访问与多阶段流水线的任务时，传统架构的“计算强、通信弱”问题暴露无遗。

以anything-llm这类知识管理平台为例，用户上传一份PDF后，系统需完成文本提取、分块编码、向量存入、实时索引更新等一系列操作；当提问发生时，又要快速检索相关片段并拼接上下文供LLM生成回答。整个流程看似简单，但在高并发场景下，CPU-GPU间频繁的数据拷贝、显存带宽争抢以及内核启动开销，往往成为性能天花板的主要来源。

正是在这种背景下，Graphcore推出的IPU（Intelligence Processing Unit）提供了一种根本性的解法思路——不再把数据搬运当作负担，而是将其作为计算本身的核心组成部分来设计硬件。它所代表的，是一次从“以计算为中心”到“以数据流动为中心”的范式转移。

从Tile到交换网络：重新定义AI芯片的底层结构

Graphcore IPU的物理架构与传统GPU截然不同。一片IPU-M2000集成了约1216个独立处理单元，称为Tile。每个Tile都拥有自己的计算逻辑、本地SRAM内存（约256KB）和通信接口，彼此之间通过一个专用的片上交换网络（Exchange Fabric）互联。这个网络不是简单的总线或交叉开关，而是一个支持任意两点直连、低延迟（微秒级）、高带宽的全连接拓扑结构。

这意味着什么？
想象你要执行一次大规模余弦相似度计算：查询向量需要与成千上万的文档嵌入进行比对。在GPU上，这通常依赖全局显存共享+并行化kernel调用，每一次访存都可能触发缓存未命中或bank冲突。而在IPU上，你可以将不同的文档向量预分布到多个Tile的本地内存中，查询向量则通过交换网络同时广播至所有目标Tile。每个Tile独立完成局部计算后，结果再通过网络汇聚回输出节点——全程无需访问外部DRAM，也没有中央调度器介入。

这种“数据在哪里，计算就在哪里”的模式，本质上是将通信机制提升为一等公民。它打破了冯·诺依曼架构中“先取指令、再取数据”的固有节奏，转而采用确定性数据流模型：一个计算任务只有在其所有输入数据到达时才会触发执行，输出结果立即推送给下游节点，形成真正的事件驱动并行。

数据流编程：让AI工作负载“自己跑起来”

在IPU的世界里，程序不再是按顺序执行的一系列指令，而是一个由计算节点和数据边构成的有向图。这个图一旦被编译部署到芯片上，就会像电路一样持续响应输入变化。比如在一个RAG系统的检索模块中：

文档分块 → 被分配为多个输入张量；
每个张量绑定到特定Tile上的嵌入模型实例；
当某个块的编码完成，其向量结果自动经由交换网络传送到检索子图；
触发与查询向量的相似度匹配；
匹配结果达到阈值后，进一步激活生成路径……

这一切都不需要CPU发出新的kernel启动命令，也不依赖操作系统级别的同步原语。整个流程就像水流过管道，在数据抵达接口的瞬间自然流动下去。

import popart builder = popart.Builder() input_x = builder.addInputTensor("FLOAT", [1, 768], "query") input_y = builder.addInputTensor("FLOAT", [100, 768], "docs") similarity = builder.aiOnnx.cosine_similarity([input_x, input_y]) output = builder.addOutputTensor(similarity) proto = builder.getModelProto() data_flow = popart.DataFlow(1, {output: popart.AnchorReturnType("FINAL")}) session = popart.InferenceSession( fnModel=proto, dataFlow=data_flow, deviceInfo=popart.DeviceManager().acquireAvailableDevice(1) ) session.prepareDevice() outputs = session.run({input_x: query_vec, input_y: doc_matrix})

上面这段Poplar SDK代码虽然看起来仍是声明式语法，但其背后生成的执行计划已经被静态映射到了Tile阵列之上。cosine_similarity节点会被自动拆解为多个并行子任务，分布在不同的Tile上运行，中间数据通过交换网络直接路由，避免了传统框架中常见的“主机-设备-主机”往返延迟。

更关键的是，这种图一旦加载，就可以长期驻留于IPU内存中，后续只需注入新数据即可持续产出结果——这对于需要频繁小批量查询的企业知识库来说，意味着极低的平均响应时间。

在 anything-llm 中释放IPU潜能

anything-llm是一类典型的轻量级RAG应用，具备完整的文档解析、向量存储、多模型切换和Web交互能力。它的模块化设计使其非常适合与专用硬件深度集成。如果我们把整个系统的关键路径重新审视一遍：

文档摄入：原始文件切分为语义段落后，需使用BGE等小型Transformer模型进行嵌入编码；
向量写入：编码后的向量写入Chroma或Weaviate等数据库；
在线检索：用户提问时，查询向量与文档库做近似最近邻搜索；
上下文生成：拼接Top-K结果送入LLM生成自然语言回答。

其中第1步和第3步正是IPU最擅长的领域：中等计算强度、高度并行、频繁的小批量操作。特别是嵌入编码环节，BGE-small-en这类模型参数量仅百万级别，完全可以整层部署在一个Tile集群内，实现单文档块对应一小组Tile的细粒度并行。

#include <poplar/Graph.hpp> #include <poplar/Engine.hpp> #include <poplar/Program.hpp> void parallel_encode_documents(poplar::Graph& graph, std::vector<std::string>& chunks) { std::vector<poplar::Tensor> inputs; for (auto& chunk : chunks) { auto t = graph.addVariable(FLOAT, {1, 512}, "input_" + chunk.id); inputs.push_back(t); } auto model = load_bge_model(graph); std::vector<poplar::Tensor> embeddings; for (auto& input : inputs) { auto emb = model.encode(input); embeddings.push_back(emb); } auto concat_emb = poplar::concat(embeddings, 0); poplar::program::Sequence prog; prog.add(poplar::program::Execute(model.program())); poplar::Engine engine(graph, prog); engine.load(device); engine.run(0); }

这段C++伪代码展示了如何利用Poplar实现文档块的并行编码。每个输入张量独立存在，编码过程由数据流驱动自动调度。最终合并的嵌入矩阵可直接用于批量写入向量缓存，甚至可以在IPU内部维护一个热区索引副本，供后续检索即时调用。

构建端到端的AI流水线：不只是加速，更是重构

当我们将视野拉得更远一些，IPU带来的不仅是单个环节的提速，而是整个AI服务架构的重塑可能性。

设想这样一个企业部署场景：

[用户终端] ↓ HTTPS/WebSocket [Web Server] ←→ [Auth Service] ↓ [NLP Gateway] —— 请求路由与会话管理 ↓ [IPU Cluster] ├── Tile Array 1: 文档编码服务（Embedding Engine） ├── Tile Array 2: 向量检索服务（Similarity Search） └── Tile Array 3: LLM推理服务（Generation Pipeline） ↑ [Vector DB Cache] ↔ 主存缓存高频访问向量 ↑ [Storage Backend] ← S3/NAS（原始文档存储）

在这个架构中，IPU集群承担了从前端接入到后端生成的全链路处理。文档编码、相似度计算、Prompt构造乃至部分轻量级LLM推理都可以统一建模为一个大型数据流图，运行在同一块芯片上。数据只在初始输入和最终输出时穿越主机边界，其余时间始终保留在IPU的本地内存与交换网络之中。

这不仅大幅降低了I/O延迟，更重要的是提升了系统的安全性和可控性——敏感的企业知识从未离开本地硬件，也无需经过公共云API中转。

实际痛点	IPU + anything-llm 解决方案
文档编码慢，影响知识库实时性	千级Tile并行编码，实测可达 >100页/秒
向量检索延迟高	片上交换网络实现微秒级点对点通信
多用户并发卡顿	数据流天然支持多实例隔离与资源弹性分配
安全合规要求严	所有数据保留在本地IPU内存，不外泄

当然，这样的系统也带来新的工程挑战。例如，每个Tile仅有256KB SRAM，必须精细规划模型分片策略；大型图需借助PopART工具链进行自动分割与布局优化；对于低流量时段，则可通过动态批处理机制提高资源利用率。

但这些都不是不可逾越的障碍，反而体现了IPU作为一种面向未来的AI架构所具备的灵活性：它不要求你完全重写算法，而是鼓励你在更高层次上重新思考“计算应该如何组织”。

结语：迈向真正的认知引擎

Graphcore IPU的价值，不在于它是否能在ResNet-50训练上超越A100，而在于它能否支撑那些传统架构难以高效运行的新型AI工作负载。在RAG、知识图谱、稀疏注意力、条件推理等场景中，它的优势尤为明显。

将anything-llm部署于IPU平台，本质上是在打造一种实时认知引擎：不再是被动响应查询的数据库前端，而是能够主动感知、快速关联、即时生成的知识中枢。这种能力对企业决策支持、智能客服、科研辅助等领域具有深远意义。

随着HuggingFace等主流生态逐步加强对Poplar的支持，越来越多的开源模型可以直接在IPU上运行。未来，我们或许会看到更多“小而专”的AI应用，依托于这类新型硬件，在边缘侧或私有环境中实现前所未有的性能与能效比。

而这，才刚刚开始。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

Graphcore IPU探索：用交换机代替矩阵乘法的新范式