
带宽和算力提升是网络配置演进趋势。以英伟达的方案为例,从A100到H100再到GH200超级芯片,单卡算力和网络互联带宽保持了快速提升。
A100:40GB的高速HBM显存,NVLINK互联带宽为600GBps,支持8卡互联,网卡和交换机配置为200G,采用200G光模块。
H100:和A100相比,显存提升到160GB,NVLINK互联带宽提升到900GBps,网卡和交换机升级为400G,采用400G和800G光模块。
GH200:1)大内存:256个超级芯片互联得到的GH200超级计算机拥有144TB的内存,可以存储更大规模的模型和数据。
高带宽互联方面,在A100和H100方案中,NVLINK技术只用于服务器内部8张GPU卡之间的互联,其中A100的芯片互联带宽为600GBps,H100为900GBps。在GH200系统中,每张SuperChip可以视为一个服务器,同时芯片之间的互联变为通过NVLINKSWITCH来完成,使得系统中的每个GPU都可以用900GBps的速度访问其他GPU,带宽得到明显提升,推动通信侧速度快速提升。