news 2026/4/23 9:56:21

微软发布第二代AI推理芯片Maia 200

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
微软发布第二代AI推理芯片Maia 200

微软宣布推出Maia 200,这是一款突破性的推理加速器和推理动力引擎,标志着AI的未来可能不仅在于大语言模型生成多少Token,更在于如何最优化地生成。

这款AI芯片专为多环境异构AI基础设施设计,特别针对大型推理模型的推理任务进行了优化。微软声称这是目前所有超大规模云服务商中性能最强的第一方芯片,也是其部署过的最高效推理系统。

Moor Insights & Strategy副总裁兼首席分析师Matt Kimball表示,微软的方法与其他超大规模云服务商不同。"其他云服务提供商提供的平台专注于训练和推理,偏向于自己的定制堆栈,而微软将推理视为战略着陆区,构建了针对智能体AI驱动环境优化的平台。"

卓越性能表现

微软声称,Maia 200的4位浮点(FP4)性能比第三代Amazon Trainium高出3倍,8位浮点(FP8)性能超过谷歌第七代TPU。

具体数据显示,Maia具备以下特性:

峰值4位浮点(FP4)算力达10,145万亿次运算/秒,而AWS Trainium3仅为2,517万亿次运算/秒

峰值8位浮点(FP8)算力达5,072万亿次运算/秒,而Trainium3为2,517万亿次运算/秒,谷歌TPU版本7为4,614万亿次运算/秒

高带宽内存(HBM)速度达7万亿位/秒,而Trainium为4.9万亿位/秒,谷歌TPU版本7为7.4万亿位/秒

HBM容量为216GB,而Trainium为144GB,谷歌TPU版本7为192GB

此外,微软表示,Maia相比"当前机队中最新一代硬件"提供30%更好的性价比。"大量"高带宽内存(HBM)使模型能够尽可能接近计算资源运行。

"实际上,Maia 200可以轻松运行当今最大的模型,并为未来更大的模型留有充足空间,"微软表示。

创新架构设计

Maia还通过微软所称的重新设计的内存子系统以不同方式向模型提供数据,该子系统具有专门的直接内存访问(DMA)引擎和片上静态随机存取存储器(SRAM),以及专门的片上网络(NoC)结构。这些都允许高带宽数据移动,同时增加Token吞吐量。

微软表示,特别针对现代大语言模型设计了Maia 200;具有前瞻性的客户不仅寻求文本提示,还希望获得支持更深层推理能力、多步智能体以及最终自主AI任务的多模态能力(声音、图像、视频)。

作为异构AI基础设施的一部分,微软表示Maia 200将服务多个模型,包括OpenAI最新的GPT-5.2系列。它与Microsoft Azure无缝集成,Microsoft Foundry和Microsoft 365 Copilot也将从该芯片中受益。该公司的超级智能团队还计划使用Maia 200进行强化学习(RL)和合成数据生成,以改进内部模型。

行业专家评价

Info-Tech Research Group咨询研究员Scott Bickley指出,从规格角度来看,Maia 200超越了亚马逊的Trainium和Inferentia以及谷歌的TPU v4i和v5i。它采用3纳米工艺节点制造,而亚马逊和谷歌芯片采用7纳米或5纳米节点,在计算、互连和内存能力方面也表现出卓越性能。

然而,他提醒:"虽然这些数字令人印象深刻,但客户在将工作负载从Nvidia等平台迁移之前,应该验证Azure堆栈中的实际性能。"他还补充说,客户还应确保微软实现的30%节省部分通过Azure订阅费用传递给客户。

"Maia 200的理想用例将涉及高吞吐量工作负载以及大型模型的内存需求,"Bickley说。

技术演进历程

Bickley指出,Maia的早期版本"受到设计和开发挑战的困扰",这些挑战"主要是自己造成的"。这拖慢了微软在2024年和2025年在该领域的发展,而其竞争对手同时加快了开发速度。

"通过获得OpenAI的知识产权,他们似乎正在缩小差距,"他说。通过使用台积电的3纳米工艺、HBM和片上SRAM,以及针对推理性能的优化,微软"可能以一种将大幅降低自身基础设施成本的方式发展了这款芯片"。

Moor公司的Kimball补充说,Maia的软硬件架构对推理很有意义。"丰富的SRAM和HBM允许带宽在稳态推理中飞速运行,"他说。此外,该芯片采用行业标准互连,"在组件、系统、机架甚至数据中心级别提供性能"。

微软的开放软件堆栈"专门设计用于使在Maia上建立推理变得无摩擦",Kimball指出,强调:"这不是微软试图替代Nvidia或AMD。这是关于互补。"

Kimball指出,可以说,微软比任何其他云服务商都更了解企业IT组织,因为其软件和工具在这个市场上占主导地位已有数十年。其Maia团队利用这一知识提供了一个"似乎简单嵌入在Azure平台结构中"的推理服务。

部署与展望

开发者和其他早期采用者可以注册预览版Maia 200软件开发套件(SDK),该套件提供了为Maia 200构建和优化模型的工具,如PyTorch集成、Triton编译器和优化的内核库,以及访问Maia底层编程语言的权限。

Maia 200目前部署在微软位于爱荷华州得梅因附近的美国中部数据中心区域。接下来将到达位于亚利桑那州凤凰城附近的美国西部3数据中心区域,然后是其他区域;具体时间和地点尚未公布。

Q&A

Q1:Maia 200相比竞争对手有什么技术优势?

A:Maia 200在多个方面超越竞争对手:4位浮点性能比Amazon Trainium3高出3倍,8位浮点性能超过谷歌第七代TPU。采用3纳米工艺制造,拥有216GB HBM容量和7万亿位/秒的高带宽内存速度,在计算、互连和内存能力方面都表现卓越。

Q2:Maia 200主要适用于什么样的AI应用场景?

A:Maia 200专门针对现代大语言模型的推理任务设计,特别适合高吞吐量工作负载和大型模型应用。它支持多模态能力(声音、图像、视频),能够处理多步智能体任务,并最终支持自主AI任务,是推理密集型应用的理想选择。

Q3:企业用户如何使用Maia 200芯片?

A:Maia 200与Microsoft Azure无缝集成,Microsoft Foundry和Microsoft 365 Copilot将直接受益。开发者可注册预览版SDK获得构建和优化工具,包括PyTorch集成、Triton编译器等。目前已在美国中部数据中心部署,将逐步扩展到其他区域。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/21 21:49:03

基于SpringBoot的校园资讯交流平台设计与实现任务书

基于SpringBoot的校园资讯交流平台设计与实现任务书 一、任务背景与意义 当前校园资讯传播存在渠道分散、信息杂乱、互动性不足等问题,学校通知、校园活动、学业资源、生活服务等资讯多依赖线下张贴、班级群转发等传统方式,易出现信息滞后、覆盖不全、查…

作者头像 李华
网站建设 2026/4/23 9:55:52

【课程设计/毕业设计基于Springboot的小区停车管理系统】基于springboo的小区车辆管理系统管理社区车辆【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/3/13 13:54:34

TimeXL:大模型赋能的可解释多模态时间序列预测新方法

TimeXL提出结合LLM的可解释多模态时间序列预测框架,通过多模态原型编码器生成预测与解释,并利用LLM三重协作机制形成闭环优化。该方法解决传统模型"解释性缺失"与"上下文利用不充分"痛点,在多领域均优于现有方法&#xf…

作者头像 李华
网站建设 2026/4/18 2:44:16

Java毕设选题推荐:基于springboo的小区车辆管理系统查车位、预约、出场、论坛互动【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/16 13:18:09

大语言模型技术深度解析:微调、PEFT与优化技术实战

本文全面介绍大语言模型基础知识,包括Transformer架构、语言建模原理和预训练挑战。重点详解参数高效微调技术(PEFT)如LoRA、QLoRA、适配器等,以及提示工程、模型压缩方法(量化、蒸馏、剪枝)。还探讨分布式训练和推理优化技术&…

作者头像 李华
网站建设 2026/4/21 23:11:41

38-mini-vue 实现解析 element

实现解析 element 思路 区别与解析插值语法&#xff0c;解析 element 需要不同类型和方法, 尖角号和第一个字符是字母将解析完成后的代码都删掉 测试代码 describe("element",()> {it("simple element div",()>{const ast baseParse("<…

作者头像 李华