1. 项目概述:从“旧瓶”到“新酒”的Chiplet革命
最近在整理资料时,翻到一篇2021年关于Chiplet(芯粒)的行业讨论,标题叫“More than Chiplets”。虽然文章是几年前的,但里面提到的很多问题,比如商业模式、接口标准、良率挑战,恰恰是今天我们这些做芯片和系统设计的一线工程师每天都要面对的“硬骨头”。Chiplet这个概念,说新不新,系统级封装(SiP)、异构集成这些玩法早就有了。但说它不新,它又确实在彻底改变半导体行业的游戏规则,尤其是在数据中心、高性能计算这些对算力、功耗和成本都极度敏感的领域。这篇文章,我就结合自己这几年参与的几个相关项目,聊聊Chiplet到底“新”在哪里,它带来的不只是技术变革,更是一场从设计、制造到商业模式的全面重构。
简单来说,你可以把传统的单片式SoC想象成一家“全能型大公司”,从CPU、GPU到各种I/O、内存控制器,所有部门都挤在同一栋摩天大楼(单片硅晶圆)里。而Chiplet架构,则更像一个现代化的“产业园区”。园区里有专门做计算的核心公司(CPU Chiplet)、做图形处理的专业公司(GPU Chiplet)、做高速通信的物流公司(I/O Chiplet),它们各自拥有独立、优化的“办公楼”(小尺寸芯片),但通过园区内的高速专用道路(先进封装内的互连)紧密协作,共同完成复杂的任务。这种模式的优势显而易见:每家公司(Chiplet)都可以采用最适合自己工艺的“建筑技术”(制程节点),比如计算核心用最先进的3nm以求极致性能,模拟I/O部分用成熟的28nm以保证可靠性和成本,最后通过先进的“园区规划”(2.5D/3D封装)集成在一起,实现整体系统的最佳效能。
2. Chiplet的核心驱动力:为何巨头们纷纷入场?
2.1 经济性:摩尔定律放缓下的必然选择
驱动Chiplet发展的首要因素,也是最现实的动力,就是经济性。随着工艺节点向3nm、2nm甚至更小尺寸迈进,单个大尺寸芯片(尤其是那些面积动辄超过800平方毫米的“巨无霸”)的制造成本呈指数级上升。这背后有两个关键原因:一是先进工艺的掩膜版(Mask)成本极其高昂,流片一次就是数千万美元;二是大芯片的良率(Yield)问题。芯片制造过程中难免会有缺陷,芯片面积越大,包含缺陷的概率就越高。良率公式(如泊松模型)告诉我们,在给定缺陷密度下,芯片面积翻倍,良率会急剧下降。将一个功能复杂的大芯片拆分成多个功能相对单一、面积更小的Chiplet,每个小芯片的良率会显著提升,从而大幅降低因单个缺陷导致整个大芯片报废的损失。
实操心得:在一个AI加速器项目中,我们最初规划了一颗集成了16个计算核心、HBM2e内存控制器和高速SerDes的28nm单芯片。模拟测算下来,芯片面积过大,预估良率不到40%,成本完全不可控。后来我们果断转向Chiplet方案,将16个计算核心做成4个相同的“计算芯粒”(采用更激进的12nm工艺以提升性能),内存控制器和SerDes做成独立的“I/O芯粒”(沿用稳定的28nm工艺)。虽然增加了封装成本和设计复杂度,但每个小芯片的良率都提升到了90%以上,总体制造成本下降了约35%,项目才得以继续推进。
2.2 性能与灵活性:异构集成的终极形态
第二个驱动力是性能与设计的灵活性。正如原文中Open Compute Project (OCP)下属的开放域特定架构(ODSA)工作组所强调的,Chiplet是实现“域特定架构”(DSA)的理想载体。不同的计算任务对芯片工艺的要求截然不同。数字逻辑部分(如CPU/GPU核心)渴望最先进的FinFET或GAA晶体管来提升速度和能效;而模拟/混合信号电路(如高速SerDes、射频前端)和存储单元(如SRAM)在先进节点下的性能提升有限,甚至可能因为电压降低、噪声增大而变差,但它们却要承担高昂的工艺成本。
Chiplet架构允许我们将这些不同“域”的电路模块,分别用最适合的工艺节点去制造,然后通过先进封装技术集成。例如,可以将7nm的CPU Chiplet、6nm的AI加速器Chiplet、以及采用更成熟工艺的LPDDR5 PHY Chiplet和PCIe 5.0 Chiplet,共同封装在一个基板上。这实现了真正的“异构集成”,不仅让每个部分都运行在最佳状态,还极大地加速了产品迭代。当需要升级CPU时,只需更换新的CPU Chiplet,而其他部分(如I/O、内存)可以复用,这大大缩短了“Time-to-Market”。
2.3 供应链与生态:从垂直整合到水平分工
第三个深层驱动力是供应链的重塑和生态的开放。传统的半导体模式是高度垂直整合的,巨头们(如Intel、AMD)从头到尾包办设计、制造、封装。Chiplet有望催生一个更水平化的产业生态。未来可能会出现专业的“Chiplet供应商”,他们只专注于设计并销售某类特定的芯粒(例如,专精于各种接口协议的I/O Chiplet库,或经过硅验证的AI加速器Chiplet)。系统厂商(如云服务商、汽车制造商)则可以像“搭积木”一样,采购这些经过验证的芯粒,快速组合出符合自己特定需求的定制化芯片产品。
这正是ODSA等组织努力的方向:建立开放的Chiplet接口标准、互连协议和商业模式。当接口标准化后,不同供应商的Chiplet才能实现“即插即用”,降低系统集成的门槛和风险。这类似于PC产业中的主板、CPU、内存条的分工模式,将极大地激发创新活力。
3. Chiplet的“税”:技术挑战与成本权衡
天下没有免费的午餐,Chiplet架构在带来巨大优势的同时,也引入了一系列新的挑战和成本,业内戏称为“Chiplet Tax”。如果不能妥善解决这些问题,Chiplet的经济模型就会崩塌。
3.1 设计与测试复杂度激增
首先,设计复杂度从芯片级上升到了系统级。在单片SoC中,所有模块通过片上网络(NoC)通信,时序收敛、电源完整性、信号完整性的分析都在一个统一的硅片内进行。而在Chiplet系统中,你需要考虑:
- Die-to-Die (D2D) 互连:这是Chiplet系统的生命线。信号需要从一个芯片的焊盘(Bump)发出,经过封装基板或硅中介层(Interposer)上的微米级走线,再进入另一个芯片。这引入了额外的寄生参数(RLC),导致信号衰减、延迟增加和串扰风险。
- 功耗与热管理:多个高功耗Chiplet密集集成在一个小封装内,会产生巨大的热密度。热点(Hot Spot)问题比单片芯片更严重,需要从架构初期就协同设计功耗分布、散热路径和封装散热方案(如硅通孔TSV、微流道冷却)。
- 系统级验证:验证工作从单一的芯片网表,扩展到包含多个Chiplet、封装模型、甚至PCB部分模型的混合仿真。这需要新的EDA工具和方法学,比如使用芯片-封装-系统(CPS)协同仿真平台。
3.2 “已知合格芯片”与测试难题
已知合格芯片(KGD, Known Good Die)是Chiplet量产的前提。在传统封装中,芯片先进行晶圆级测试(CP Test),然后切割、封装,再进行最终测试(FT Test)。对于Chiplet,你必须在它被放入昂贵的先进封装(如CoWoS)之前,就确信它是100%合格的。因为封装后如果有一个Chiplet失效,整个多芯片模块(MCM)就可能报废,损失远大于单个芯片。
这就带来了测试经济学上的难题:如何对一颗尚未封装、只有微小焊盘的裸芯片进行充分、高效且成本可控的测试?测试探针卡的精度和成本、测试接口单元(D2D PHY)的自测试能力、以及测试覆盖率都面临挑战。原文中提到的“Unknown Ungood Die (UUD)”概念非常形象——如果一颗昂贵的大FPGA Chiplet和一堆便宜的存储Chiplet封装在一起,最终因一颗廉价芯片失效而整体报废,责任和成本如何划分?这需要在供应商和系统集成商之间建立全新的商业协议和质保体系。
3.3 封装成本与接口标准
先进封装成本是另一项主要的“税”。2.5D封装(使用硅中介层)和3D封装(使用硅通孔TSV堆叠)的工艺极其复杂,成本高昂。中介层本身就像一块“无源硅片”,需要经过光刻、刻蚀等半导体工艺制造出超精细的互连线,其成本不亚于制造一块简单的芯片。
此外,缺乏统一的D2D接口标准是当前最大的障碍之一。各大厂商都在推自己的互连方案:
- 英特尔:有EMIB(嵌入式多芯片互连桥)和AIB(高级互连总线)。
- AMD:凭借Infinity Fabric在其EPYC和Ryzen处理器中取得了巨大成功,但这仍是其私有协议。
- 开放标准:有UCIe(Universal Chiplet Interconnect Express)联盟推出的标准,旨在成为Chiplet界的“PCIe”。还有OpenCAPI、OMI、BoW等竞争或互补的标准。
选择哪种接口,不仅关乎技术性能(带宽、延迟、能效),更关乎生态锁定和供应链安全。采用私有协议可能获得最佳优化,但会绑定单一供应商;采用开放标准则更灵活,但可能在初期面临性能折衷和生态成熟度问题。
4. 从理论到实践:一个Chiplet系统设计案例拆解
为了更具体地说明,我来拆解一个我们团队曾参与预研的、面向边缘AI推理的Chiplet系统设计案例。目标是实现高能效的实时视频分析。
4.1 系统架构定义与Chiplet划分
核心需求:在15W功耗预算内,实现4路1080p视频流的实时目标检测与分类。架构决策:放弃设计单一SoC,采用1个主控Chiplet + 4个AI计算Chiplet的异构方案。
- 主控Chiplet (Die A):
- 工艺:22nm FD-SOI。选择此工艺是看中其优异的低功耗特性和良好的模拟/射频性能,适合集成复杂的系统控制逻辑和多种低速I/O。
- 功能:包含一个四核ARM Cortex-A55集群(负责任务调度、视频流解码、结果上报)、DDR4/LPDDR4x内存控制器、千兆以太网、USB、SPI等系统外设,以及一个负责与AI Chiplet通信的D2D接口主机(Host)控制器。
- AI计算Chiplet (Die B):
- 工艺:12nm FinFET。追求更高的计算密度和能效比。
- 功能:每个Die B都是一个独立的AI推理引擎,包含专用张量处理单元(TPU)、本地SRAM缓存,以及一个D2D接口设备端(Device)控制器。四个Die B完全相同,以实现设计复用和成本优化。
4.2 互连与封装方案选择
D2D接口选型:经过评估,我们选择了当时已初步形成生态的AIB(Advanced Interface Bus)协议的简化版本。主要原因有:
- 并行总线优势:AIB是并行的裸片间接口,相对于PCIe等串行协议,在极短距离(毫米级)内能提供更高的带宽密度和更低的延迟,这对于多个AI计算单元与主控单元之间需要频繁交换中间张量数据(Tensor Data)的场景至关重要。
- 物理层简单:采用源同步并行传输,时钟与数据一起传送,简化了时序收敛的设计难度。电气上使用1.2V或0.8V的LVCMOS电平,在封装内短距离传输足够可靠,功耗也低于高速SerDes。
- 设计资源可用:当时有第三方IP供应商能提供经过硅验证的AIB PHY和控制器IP,缩短了开发周期。
封装方案:由于总共有5个芯片,且对互连带宽要求高,但成本敏感,我们选择了基于有机基板的2.1D封装(有时也称2.5D-lite)。
- 不使用昂贵的硅中介层,而是在高密度有机基板上采用细间距(Fine-Pitch)的铜柱凸块(Cu Pillar)和重分布层(RDL)技术来实现芯片间的互连。
- 主控Chiplet放在中心,四个AI Chiplet呈十字形分布在四周,通过基板内的超细走线(线宽/线距可达10μm/10μm量级)进行互连。这种方案的成本显著低于硅中介层,虽然互连密度和性能稍逊,但足以满足本项目需求。
4.3 设计流程与协同仿真
这是与传统设计差异最大的部分。我们建立了一个芯片-封装协同设计流程:
- 前期规划:使用Apache的RedHawk和Ansys的SIwave等工具,在架构阶段就对封装基板的布线、电源分配网络(PDN)和信号完整性(SI)进行初步分析。根据分析结果,调整Chiplet的摆放位置和D2D接口的物理位置,以优化走线长度和减少串扰。
- 物理实现:每个Chiplet分别进行独立的物理设计(Place & Route),但有一个共同的“虚拟顶层”。这个虚拟顶层定义了所有D2D接口的焊盘(Bump)位置、电源/地环规划以及时序约束。封装团队同步进行基板布线设计。
- 系统级签核:设计完成后,提取每个Chiplet的GDSII版图、带寄生参数的网表(SPEF),以及封装基板的S参数模型。将这些模型一起导入系统级仿真环境(如Cadence Palladium或Synopsys Zebu),进行全系统的功能验证、功耗分析和带寄生参数的时序仿真。这一步是为了确保信号在穿越芯片-封装边界后,依然能满足建立/保持时间要求,并且没有严重的SI问题。
踩坑记录:在第一次系统级时序签核时,我们发现从AI Chiplet发回主控芯片的某个关键数据信号,在封装走线上产生了意想不到的反射,导致接收端眼图闭合。原因是封装模型中的一段传输线阻抗控制不连续。解决办法不是回头修改芯片设计,而是与封装厂协作,调整了基板上该走线的参考层和线宽,并重新制作了仿真模型。这个案例凸显了芯片-封装协同设计的必要性。
5. 未来展望与工程师的思考
Chiplet的浪潮已不可逆转。对于身处其中的工程师而言,这意味着知识结构的升级。我们不能再只盯着RTL代码和芯片版图,必须将视野扩展到封装、系统、甚至供应链。
关于标准之争:我个人认为,类似于PCIe在板级互连中取得的成功,UCIe最有可能在长期成为业界事实上的通用Chiplet互连标准。因为它背靠英特尔、AMD、Arm、台积电、三星、日月光等全产业链巨头,旨在打造一个开放的生态。但对于追求极致性能和差异化的头部企业(如苹果、英伟达),在可预见的未来仍会继续深耕其私有互连技术(如Apple的UltraFusion, NVIDIA的NVLink-C2C)。市场可能会形成“开放标准”与“私有优化”两条路线并存的格局。
对EDA工具的挑战:现有的EDA工具链主要是为单片芯片设计的。Chiplet时代迫切需要新一代的“系统级EDA”工具,能够无缝集成多芯片设计、先进封装布线、系统级电源/热/信号完整性分析、以及多芯片测试规划。这将是EDA行业的下一个爆发点。
给初入行者的建议:如果你是一名数字IC设计工程师,除了深耕本职的架构、验证、后端设计技能外,现在有必要开始了解:
- D2D接口协议:学习一两种主流协议(如UCIe, BoW)的基本原理、物理层和链路层。
- 先进封装基础:了解2.5D、3D、Fan-Out等封装技术的概念和制造流程。
- 系统级思维:尝试从整个系统的角度(功耗、性能、成本)去思考芯片设计,而不仅仅是模块本身。
Chiplet不是对过去MCM或SiP的简单重复,而是在摩尔定律逼近物理极限时,半导体产业的一次深刻范式转移。它把创新的主战场,从晶体管的微缩,部分转移到了芯片的架构、集成和系统级优化上。这场变革才刚刚开始,充满了挑战,也孕育着巨大的机遇。对于我们工程师来说,保持学习,拥抱变化,才能在这场“More than Moore”的征程中不掉队。