十年十篇 • 数启新程：《分布式技术在大模型训练和推理中的应用》-深圳市維司達科技有限公司

编者按：十年深耕，十篇精粹。数据已成为核心生产要素，《大数据》见证技术突破与政策赋能的双向奔赴。本次甄选十篇文章，涵盖高被引理论成果、政策落地研究与社会前沿热点，既是学科发展的缩影，更是产业实践的指南。即日起逐篇推送，邀您回溯十年积淀，共探数据要素市场化、数智融合的未来新篇！敬请关注。

分布式技术在大模型训练和推理中的应用

摘要近几年，人工智能被广泛应用于多个领域，大语言模型（以下简称大模型）的“预训练-微调”成为人工智能的最新范式。分布式技术存在于大模型生命周期的每一环，为大模型的发展助力。在数据获取环节，针对海量小文件的存储问题，研发了文件系统SuperFS，能够同时满足低延迟和可扩展的要求。在数据预处理环节，针对从分布式文件系统读取数据开销大的问题，研发了高效大数据处理引擎“诸葛弩”。在模型训练环节，针对检查点文件读写性能差的问题，提出了分布式检查点策略，加快了检查点文件的读写速度。在模型推理环节，针对KVCache对存储系统的挑战，研发了高吞吐推理方案FastDecode以及大模型推理架构Mooncake。分布式技术的应用，使大模型能够充分利用计算资源，加快训练速度，有利于人工智能领域的发展。

关键词分布式技术; 大模型; 海量小文件; 大数据处理引擎; 检查点; KVCache

引用格式：

郑纬民. 分布式技术在大模型训练和推理中的应用[J]. 大数据, 2024, 10(5): 1-10.

Zheng W M. Application of distributed techniques in large language model training and inference[J]. Big Data Research, 2024, 10(5): 1-10.

引言

近几年人工智能在多个领域应用广泛，已进入大模型时代，其中“预训练-微调”成为新范式。大模型支持众多领域任务，如GPT-3。分布式技术在大模型的四个环节（数据获取、预处理、训练、推理）中都发挥重要作用。数据获取需存储海量小文件，预处理需处理海量数据，训练需解决大模型检查点文件读写问题，推理需加载庞大模型参数和保存中间结果。

数据获取

大模型训练中海量小文件的存储面临挑战，特别是元数据管理问题。多模态数据集包含数亿至数百亿个小文件，导致元数据管理困难，存储100亿小文件需管理7TB元数据。现有分布式文件系统在处理海量小文件时存在可扩展性和低延迟难以兼顾的问题。为解决这些问题，清华大学研发了高性能文件系统SuperFS，采用解耦合目录树存储策略，实现了低延迟和可扩展性。SuperFS在文件操作延迟方面远低于现有文件系统，其元数据性能通过低开销索引、NUMA感知数据组织等技术得到大幅提升，刷新了世界纪录。

数据预处理

海量数据预处理是大模型训练的关键步骤，直接影响模型效果。数据预处理包括随机采样、解码和变换等，通常占用大量训练时间。传统以计算为中心的方法导致网络开销大，而以数据为中心的方法通过将计算任务调度到数据所在节点，减少数据读取开销。清华大学研发的“诸葛弩”引擎采用以数据为中心的执行模式，使用C++编写，减少内存需求，兼容PySpark接口，并采用编译优化技术降低开销。在模糊删冗应用中，诸葛弩的性能显著优于PySpark，展现出在大模型数据预处理中的潜力。

模型训练

大模型训练中的检查点文件读写是另一大挑战，特别是在硬件出错概率高的情况下，如何高效保存和恢复模型参数和中间结果。以神威平台为例，分析了万亿参数量模型检查点文件读写的性能问题，指出存储系统架构和网络利用效率是影响性能的核心因素。对此，提出了分布式检查点策略，通过数据均匀分布、增加I/O进程数和均匀划分I/O请求，显著提高了检查点读写性能，将10万亿参数量模型的检查点读写时间从3小时缩短到10分钟。

模型推理

在模型推理过程中，KVCache的存储挑战显著，其数据量可达数百TB至PB级别，远超模型参数。FastDecode是一种高吞吐推理方案，通过WA分离推理方案在计算加速卡和CPU上交替计算，提高计算效率并减轻显存压力。FastDecode利用闲置CPU和主存处理KVCache，显著提升batch size和GPU利用率，降低成本。Mooncake是以KVCache为中心的大模型推理架构，通过以存换算提升吞吐量，并采用超大规模分离式内存池为中心的KVCache缓存和调度。Mooncake利用GPU集群中闲置的内存容量和互联带宽，节省成本的同时降低响应延迟。在真实负载模拟实验中，Mooncake相较于vLLM可多处理75%的请求。

作者简介

郑纬民，中国工程院院士，清华大学计算机科学与技术系教授，中国计算机学会第十届理事长，数博会专家咨询委员会委员，何梁何利科学与技术进步奖获得者，中国存储终身成就奖获得者，享受国务院政府特殊津贴，《大数据》主编。获北京市优秀教师奖和北京市教学名师称号，获国家科技进步奖一等奖1项、二等奖2项，国家技术发明奖二等奖1项，2016年获ACM戈登·贝尔奖。2019年当选中国工程院院士。主要研究方向为网络存储系统，长期从事网络存储系统科学研究、工程建设和人才培养，在存储系统扩展性、可靠性和集约性等科学问题和工程技术方面，取得了国内外同行认可的创新性成果；研制的网络存储系统、容灾系统和自维护存储系统在多个重大工程中发挥了重要作用。教学方面长期讲授计算机系统结构课程，2008年被评为国家级精品课程；已编写和出版计算机系统结构教材和专著10本，与合作者一起发表论文530余篇。

戳“阅读原文”，了解更多

相

关

阅

读

十年十篇 • 数启新程：《大数据技术前瞻》

十年十篇 • 数启新程：《基于多模态大模型的具身智能体研究进展与展望》

十年十篇 • 数启新程：《大数据与计算模型》

联系我们:

Tel:010-53859533

010-53879208

E-mail:bdr@bjxintong.com.cn

http://www.j-bigdataresearch.com.cn/

转载、合作：010-53879255

大数据期刊

《大数据（Big Data Research，BDR）》双月刊是由中华人民共和国工业和信息化部主管，人民邮电出版社主办，中国计算机学会大数据专家委员会学术指导，北京信通传媒有限责任公司出版的期刊，已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊，以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录，并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

关注《大数据》期刊微信公众号，获取更多内容

十年十篇 • 数启新程：《分布式技术在大模型训练和推理中的应用》

新华社发布：中国AI，最新趋势来了！

3PEAK思瑞浦 TP1561AL1-S5TR-S SOT23-5 运算放大器

还是智能的悲剧：达沃斯论坛赫拉利的观点分析

uniapp+python微信小程序的在线问诊挂号开药系统

Java实习模拟面试之Java基础篇（1-8题）：高频核心考点深度解析

【2026】 LLM 大模型系统学习指南 (35)