Like

Innolink Chiplet赋能高性能GPU

  • 2022年03月11日 来源:“IP与SoC设计”

当前,海量的AI应用、游戏、云服务等领域急需一款高性能GPU来满足广泛的市场需求。近期,中国一站式IP和芯片定制赋能企业芯动科技于2021年11月率先发布了高性能服务器级GPU-风华1号。

 

这款高性能GPU演示的实际参数和性能令人颇感兴奋,其中B卡涉及的Chiplet技术更是吸引了市场眼球。

 

 

 

风华1号GPU发布

 

公开的数据显示,B型卡通过Innolink Chiplet技术,将两颗GPU联级,实现性能翻倍。

 

发布会上,芯动透露Innolink是自主研发的Chiplet标准通信协议,在摩尔定律趋近失效、先进工艺成本高昂的市场状况下,开拓出的新技术路线,为高性能计算、5G、元宇宙、云游戏、云服务等应用提供异构集成的基础连接技术。

 

本文中,我们将揭开Innolink Chiplet黑科技的神秘面纱,详细探讨Chiplet技术能带给我们的惊喜。

 

1、Chiplet的发展趋势

 

需求,永远是最好的技术发展推动力!

 

简单来讲,Chiplet就是将芯片的各个功能模块像乐高积木一样拆分开来,再根据需要组织拼接在一起,具有灵活、成本低的特点。

 

早在2000年IBM就提出了集成电路Chiplet技术的概念,但是Chiplet作为新的异质集成(heterogeneous integration )技术的一部分,在当时并没有掀起太大的波澜。毕竟在那个年代,摩尔定律稳定延续,各晶圆厂在制程发展上一日千里,将SoC的各个功能模块放在同一晶片(monolithic)上是划算且高效的。

 

 

IBM System z10 Multi-Chip Module

 

直到2014年左右,最先进的晶圆制造工艺到达16/14nm时,急剧上升的制造成本和设计难度,让Chiplet技术看起来越发诱人。一个新的28nm节点的SoC开发成本达到了5千万美元左右,小功能的迭代也达到了2千万美元左右,5/7nm的SoC成本更是达到了3-4亿美元。这样高昂的成本,别说初创公司,对于芯片巨头来说也是难以承受的,于是探索Chiplet技术来延续摩尔定律成为了业界共识。

 

 

引用AMD的数据,随着工艺的发展,成本剧增

 

2014年,海思与台积电合作推出了自己第一款Chiplet产品,使用的台积电CoWoS技术。

 

2015年,Marvell推出了Chiplet架构智能手机处理器Mochi。

 

2017年,AMD推出EPYC系列采用Chiplet技术实现对Intel的弯道超车。

 

 

AMD EPYC处理器成功实现了集成最高达64x核的高性能服务器芯片

 

AMD在EPYC和Ryzen系列处理器上取得了巨大的成功,将Chiplet技术推向了行业的风口,一时间各个芯片巨头纷纷大力投入Chiplet相关技术的实现。

 

英特尔为了应对AMD的挑战,于2018年将 EMIB(嵌入式多硅片)技术升级为逻辑晶圆3D 堆叠技术Foveros。英特尔的EMIB(Embedded Die interconnect bridge)技术提供了Chiplet所需要的高性能连接带宽。


 

3D-Foveros结构图

 

Intel Agilex-EMIB结构图

 

Intel Lakefield系列Hybrid技术采用了3D-Foveros的封装结构,以及FPGA系列主流产品Stratix和Agilex。与AMD水平布局Chiplet不同,Intel采用了垂直和水平相结合的Chiplet连接结构-3D Foveros。Intel作为IDM拥有自己的晶圆厂,在Chiplet封装的多样性和迭代上更有优势。借助这些优势,Intel 推出了EMIB、HBM 的3D 封装、AIB 的总线、Foveros、CXL 等一系列异构集成技术。

 

2、Chiplet的HBM形式

 

HBM(High bandwidth memory)也是Chiplet异构集成技术的一种,用于存储芯片堆叠互联的技术,将存储晶片和处理器Die一起连接封装在一起,实现高速的内存数据交换。

 

 

HBM的DRAM Die叠加

 

 

3D/2.5D的模型

 

DRAM Die像叠积木一样垒起来,两种形式称为3D/2.5D封装技术。

 

2015年AMD发布首款采用HBM堆栈显存的最新旗舰显卡Fury -X,堆叠8GB显存。

 

 

 

 

GPU/CPU通过interposer连接异构存储单元,降低了系统的latency延时,减少PCB的空间和成本,提高运行性能。

 

 

 

显卡的小巧和紧凑得益于HBM的显存堆叠技术缩减芯片面积

 

HBM常用于高密度的内存单元堆叠,比如DRAM和Nand存储的结构,这两种垂直设计,硅片虽然堆叠在一起,但是并不会直接相连,而是通过wirebond或者通孔(Silicon Vias-TSVs)连接到底层基板上。

 

 

 

三星的Nand Die堆叠连接

 

全球主流内存厂家都在采用堆叠技术增加存储的密度,包含三星、美光、海力士等等都有各自的HBM实现产品。

 

近年来高性能计算、人工智能、自动驾驶,、云游戏等应用,推动了高并发、高带宽的计算需求。HBM正是在这样的需求推动下飞速发展,HBM2定义可以实现每个封装高达256GB/s的内存带宽(DRAM堆栈),JEDEC提出最新的HBM2E规范,最高可以实现每堆栈461GB/s的带宽。

 

 

 

HBM与处理器混合异构集成封装是很多高性能计算产品的主流设计

 

3、Chiplets的优势和面临的挑战

 

前面介绍了Chiplet在市场上的应用和发展趋势,接下来,我们就Chiplet技术的主要优点和面临的挑战来展开论述。

 

3.1有效提高良品率,降低成本

 

我们通过计算来直观展现,Chiplet是如何提高良品率的。举个例子,12寸晶圆直径为300mm,假设坏品率为0.1/cm²,按以下2种方案划分:

 

 

按整颗360mm²/die可以切割出150颗

 

 

划分成4xchiplet(99mm²/die)可以切割出622颗

 

 

4xChiplet示意图

 

 

Chiplet数量在晶圆制程的良品率变化

 

12英寸的晶圆,将原360mm²/die划分变成4xChiplet(99mm²/die)之后,良品率从15%提升到了37%,实现翻倍。虽然4-Chiplets的设计会增加10%左右的损耗,但是良品率的大大提升,仍然有效地降低了整体成本。

 

原理很简单,晶圆的坏点分布比例是一样的,当die的面积越小,数量越多,分母就越大,坏品率就越低。

 

3.2 IP模块chiplet划分,灵活复用,降低开发周期和成本

 

 

Heterogenous integration -将功能模块分离到性价比最合适的Chiplet上

 

模块化的开发思路,将单晶片(Monolithic)的IP功能模块分离(Disaggregate )到Chiplet上,注意上图中CPU核的Chiplet是7nm,而IO是14nm制程工艺,如果有存储模块可能是17nm或者更低的工艺。

 

在一颗复杂的SoC里,并不是所有的模块都适用于先进工艺的设计。一般来讲晶体管密度较高的CPU/GPU计算单元选用先进的5/7/12nm的生产工艺,但先进工艺的晶片对模拟电路IO功能却并不友好(电压幅值太低),低速的通信接口比如I2C、UART、USB2.0等用28/40nm的便宜工艺都够用了,杀鸡不用宰牛刀。

 

Chiplet将功能模块分离开了,像乐高积木一样,重构一个SoC不再需要重头开始设计,一些现成的Chiplet模块可以实现即插即用的效果,有效地降低了开发的周期和成本。

 

 

 

而且异构集成Chiplet,可以将缺陷的Chiplet/Die/芯粒灵活剔除掉,以往的单晶片Monolithic只要有一个小部分坏了,那整颗晶片Die就算是废品了,而Chiplet的结构可以将缺陷部分筛除掉,避免了这样牵一发而动全身的风险。

 

总而言之,将SoC分解Chiplet实现,高性能运算部分使用先进工艺,模拟的、低速的模块划分到低工艺的晶片上实现,既节省了成本、降低了开发周期,又匹配了各自的性能发挥。

 

3.3 Chiplet技术发展面临的挑战

 

毫无疑问,Chiplet技术有着巨大的优势和发展潜力,各头部芯片公司的Chiplet产品发布与迭代也展现了其发展趋势。当然,我们仍然要看到Chiplet技术发展面临的挑战,总结经验、评估风险才能把握发力方向,走得更远更扎实。

 

封装技术的考验

 

 

Muti-chip(let)异构封装的发展

 

当前Chiplet的需求来源于高性能计算,人工智能的复杂SoC模块分解,对速度和信号完整性有着极高的要求,传统的SiP(System in Packaging, 系统级封装)仍然需要加强工艺的优化。

 

半导体头部的制造商如Intel、TSMC、三星以及封测代工(OSAT)等都推出了各种Chiplet 2.5D/3D封装方案来满足市场的需求。

 

Intel推出EMIB(Embedded Multi-Die Interconnect Bridge,嵌入式多核心互联桥接)和3D-Foveros。

 

TSMC推出了整合芯片系统(SoIC)、InFo(Fanout)和CoWoS系列。

 

三星也发布了2.5/3D封装技术I-Cube(2.5D)/X-Cube(3D)。X-Cube,通过TSV硅穿孔技术将不同芯片Die包含内存SRAM、逻辑运算等堆叠,节省空间面积。

 

当前市场主流的高端FPGA、CPU、GPU芯片大量采用了2.5D封装技术。


 

 

 

Interposer 实现了内存,Chiplet等各个模块的连接


Chiplet的互联标准


既然单晶片SoC切割成不同的Chiplet芯粒,以便于重用复用,异构集成芯片可能会包含不同制程甚至不同厂家提供的Chiplet,统一的接口是保证信息交互的重要保证。

 

 Marvell的异构Chiplet芯片Mochi采用了Kandou协议。

 NVIDIA有GPU的高速互联NV Link方案。

 Intel 推出了EMIB(Embedded Die interconnect bridge)接口。

 TSMC和Arm合作推出了LIPINCON协议。

 AMD采用Infinity Fabrie总线互联技术。

 

各家芯片厂商有各自的协议,仅仅在自己内部实现了Chiplet互联,但是随着市场的发展与需求的推动,必然会出现不同厂商Chiplet互联的应用。统一的标准接口则是行业发展的基础,各种组织和行业协会自然而然开始了标准化工作。

 

DARPA推出“CHIPS(Common Heterogeneous Integration and IP Reuse Strategies)”计划,该项目希望通过模块化和可重用方案降低国防技术研发的成本,其成员包含了波音、Cadence、Intel、洛克希德·马丁、美光、Synopsys等行业领头羊。

 

2018年7家公司成立ODSA(Open Domain-Specific Architecture)组织,研究制定Chiplet开放标准、推动Chiplet产业发展。

 

2019年,Intel联合阿里巴巴、思科、戴尔、Facebook、Google、HPE、华为和微软成立Compute Express Link(CXL)开放合作联盟,实现CPU与GPU、FPGA等专用加速器之间的高速、高效互连。

 

可以说,Chiplet技术对当前突破AI和CPU/GPU等计算芯片的算力瓶颈具有重要意义。作为国内一站式IP和芯片定制赋能企业,芯动科技已推出了自主研发的INNOLINK Chiplet和HBM2E等先进IP,支持高性能CPU/GPU/NPU芯片的异构实现。在产业发展大背景下,芯动科技为Chiplet的标准化贡献和IP解决方案,显得尤为重要。


4.Innolink™ Chiplet 一站式解决方案

 

芯动的IP目录丰富有大量的场景验证实现

 

芯动科技是成立于2006年的老牌IP技术厂商,有着16年的技术迭代,超过200+次的流片纪录,60亿颗授权量产芯片,超过10亿颗的高端定制soc量产。在高性能计算/多媒体&汽车电子/IoT物联网等领域,芯动解决方案具有国际先进水平,涵盖DDR5/4、LPDDR5/4、GDDR6X/6、HBM2e/3、Chiplet、56G/32G SerDes(含PCIe5/4/USB3.2/SATA/RapidIO/GMII等)、HDMI2.1、ADC/DAC、智能图像处理器GPU和多媒体处理内核等多种技术。

 

这些高速接口主要应用在高性能计算、5G通信、自动驾驶、人工智能、大数据存储、云计算、高性能图像媒体处理等领域,芯动的Chiplet解决方案有着实际的需求支撑和迭代基础。

 

 

Innolink Chiplet有3种连接方式

 

Innolink™包含Chiplet Die-to-Die (D2D)、Chip-to-Chip (C2C)、Board-to-Board (B2B) 和  Package-to-Package (P2P)等多种连接需求。

 

Innolink™ Chiplet具有自主知识产权,满足了广大客户的异构集成技术需求,成功应用于高性能GPU及其他高性能计算芯片,为高性能芯片的发展提供了一条新的道路。

 

结语

 

Chiplet发展需要整个半导体产业链的协同分工,从芯片设计、EDA工具、晶圆制造到封装测试,需要统一的标准和工艺升级,这需要时间探索和协作,不断地迭代前进。

 

一项技术发展的最大动力还是来源于需求的推动,在摩尔定律趋于失效的情况下,高性能计算、人工智能、云服务、云游戏等需求仍然在爆炸式的增长,单晶片(Monolithic)SoC已经逐渐不能满足性能和成本的要求,市场需求必然会推动Chiplet产业的快速发展。

 

当前背景下,自主创新的、可以持续迭代和发展的Chiplet技术显得尤为重要,这能让企业保持在高性能芯片领域的先进性。芯动科技的Innolink™ Chiplet技术,已被成功运用于其自研的高性能GPU“风华1号”中,大大提升了性能和带宽,成为该领域的异构集成设计的实践者。我们也期待芯动在Chiplet、GDDR6/6X、HBM2E、SerDes等先进IP的进一步积累和发展,持续赋能Chiplet产业,帮助高端芯片缩短设计周期、降低设计成本,加快产业链芯片升级!



联系
我们

定制
需求