当前,AI大模型已达到万亿级参数、百万Token(词元)上下文长度的规模,且规模仍在持续提升。智算中心已进入“系统效率竞争”阶段,为满足AI大模型训练和推理需求,GPU集群要实现高效运行,必须依托算力、网络、存储、调度和运维的整体协同。其中,存储系统正从传统的数据承载平台,升级为影响GPU利用率、训练效率和业务连续性的关键基础设施。
面对海量训练数据、高并发访问、Checkpoint快速读写、冷热数据混合管理等需求,云尖信息推出了高性能、高可靠、可扩展的分布式存储解决方案。
云尖信息分布式存储解决方案
云尖信息分布式存储解决方案,采用“高性能全闪层 + 大容量混闪层 + 高速无损网络 + 分布式并行文件系统 + 多协议统一访问”的架构设计,以CS8000 X6与CS6000 X6双产品协同,构建分层数据底座,充分适配大模型训推场景和高性能计算场景,成为智算中心建设的优选方案。
云尖信息分布式存储解决方案
双产品协同
CS8000+CS6000构建分层数据底座
在分层架构中,CS8000 X6面向高性能数据访问需求,单节点顺序读带宽可达40GB/s;在典型小文件测试场景下,IOPS可达400K+。其作为全闪加速层,主要承载大模型训练热数据集、Checkpoint高频读写、模型加载与分发、高并发文件访问、低时延数据访问等需求。
CS6000 X6面向海量数据承载需求,支持大规模横向扩展,单文件系统容量可达200PB以上。其作为混闪容量层,主要承载海量非结构化数据、冷热混合数据集、全量训练数据与历史数据、日志归档备份、视频图像文档等大容量文件及中长期数据生命周期管理等需求。
两者协同形成“高性能访问+大容量承载”的分布式存储体系, 满足AI 训练、集群推理与HPC场景下的数据访问和长期管理需求。
从技术能力到业务收益,全维度解决行业痛点
基于上述架构,云尖信息分布式存储解决方案从性能释放、数据保护、弹性扩展、协议兼容、平滑迁移与智能管理等维度,支撑 AI 训练、集群推理与 HPC 场景中的多样化数据访问需求。
高性能并行访问,提升GPU集群利用率
AI训练、HPC仿真、多模态数据处理对高吞吐、低时延和高并发访问要求较高,方案通过高性能分布式并行存储与高速网络协同,降低大规模并发访问场景下容易出现 I/O 瓶颈的问题,减少 GPU 等待数据的时间,让算力资源得到更充分释放。
分层数据承载,优化存储成本与数据分层管理
面对训练数据、模型文件、Checkpoint、中间结果、日志和归档数据的持续增长,方案通过CS8000全闪高性能层与CS6000混闪容量层协同,将高频热数据与低频冷数据分层承载,在保障性能的同时降低全量全闪带来的成本压力。
多协议统一访问,减少数据孤岛与迁移复杂度
方案通过多协议兼容和统一数据访问能力,适配AI、HPC、大数据和通用业务环境,减少多套存储系统并存带来的数据重复、迁移复杂和管理割裂,有效降低数据迁移成本。
分布式高可靠架构,支撑业务连续与弹性扩展
智算中心从几十卡、百卡向千卡、万卡演进,存储不仅要扩容量,还要同步扩性能。方案通过多副本、纠删码、快照、远程复制、故障自动修复与横向扩展能力,保障硬盘、节点及网络故障下的业务连续运行,并支撑智算中心后续规模扩展。
以高效数据底座支撑新一代智算中心
在智算中心建设中,算力决定上限,存储决定效率,网络决定协同。云尖信息分布式存储解决方案以CS8000 X6和CS6000 X6为核心,构建覆盖高性能热数据访问与大容量数据管理的分层存储体系,为AI训练、集群推理、HPC 和海量非结构化数据处理提供稳定支撑。
未来,云尖信息将持续完善面向 AIDC 智算中心的服务器、存储、网络、液冷和运维服务能力,以高效、可靠、可扩展的数据底座,支撑客户智算基础设施建设与业务持续演进。