
国家、地方及行业积极推出相关政策引导液冷技术落地,2021年7月工信部《新型数据中心发展三年行动计划(2021-2023年)》要求“加强核心技术研发。鼓励企业加大技术研发投入,开展新型数据中心预制化、液冷等设施层,专用服务器、存储阵列等IT层,总线级超融合网络等网络层的技术研发”。2021年11月发改委《贯彻落实碳达峰碳中和目标要求推动数据中心和5G等新型基础设施绿色高质量发展实施方案》明确“支持采用液冷等方式”。
三大运营商不断进行实践,助力液冷技术落地。中国移动积极开展液冷系统试点应用,2019-2021年分别在河北、山东、江苏、浙江组织液冷试点,并在2023年于呼和浩特智算中心项目中启动液冷规模试点。
中国电信在5GBBU站点及数据中心机房积极进行液冷试点应用,2020年就启用首个试验点(5GBBU站点),上线2个液冷机柜,满负载率条件下PUE值约1.15;同时在高密度机房开展数据中心液冷试点,2018年在广州即开展冷板式液冷试点,PUE值约1.2,2023年计划在京津冀、安徽、广州分别开展多个液冷机柜项目,包含冷板式机柜和浸没式机柜。中国联通2021年在德清云数据基地投产的冷板式液冷已稳定运行近两年,2021年在在郑州开展5GBBU设备液冷喷淋测试,配置一套10kW液冷机柜,PUE值约为1.16。三大运营商积极探索实践液冷技术,加速推进液冷技术落地。
互联网巨头早已积极布局液冷技术,白皮书发布有望拉动互联网企业液冷规模化布局加速落地,进一步提高液冷市场空间。阿里巴巴从2016年就开始大规模部署液冷技术试点,2018年建成首个互联网液冷数据中心,2020年投产首个5A级绿色液冷数据中心(杭州云计算数据中心);百度在2021年发布《天蝎4.0液冷整机柜开放标准》,积极布局冷板液冷方案;京东在2021年即采用整机柜液冷技术,并规模投入“双11”机房中。伴随液冷技术的进一步成熟、国家PUE指标趋严、三大运营商白皮书发布进一步明确IDC温控技术路径指引,有望带动互联网大厂积极跟进,加速液冷规划化落地进程。
AI算力服务器功耗较传统服务器大幅提升,NVIDIA DGXA100 640GB最高功耗可达6.5KW。AI服务器通常采用CPU+GPU/FPGA/TPU等异构架构,使用大量高功率的CPU、GPU芯片,整机功率随之大幅走高,如用于训练ChatGPT的英伟达AI服务器(NVIDIADGXA100640GB)包含8颗GPU(NVIDIAA10080GBTensorCore GPU)和1颗CPU处理器(AMDRome7742),系统功耗最大可达到6.5KW。
大模型的陆续问世拉动AI算力需求持续提升,对数据中心的功率需求随之提高。面对快速且持续增长的算力需求,IDC建设速度及土地面积成为制约因素之一,提高单机柜功率成为发展趋势,AI高功率数据中心机柜占比进一步提高。标准机柜一般尺寸为19英寸*42U机柜,即宽48.2厘米*高186.7厘米,以英伟达A100服务器为例,高264.0毫米、宽482.3毫米、长897.1毫米,单从机柜尺寸角度出发,标准机柜最多可以放7个A100服务器,单机柜最大功率可达到45.5KW。
传统风冷技术冷却机柜功率密度较低,无法满足AI服务器散热需求。目前IDC主流的散热冷却技术主要可以分为风冷和液冷两大类别,根据《冷板式液冷服务器可靠性白皮书》数据显示,自然风冷的数据中心单柜密度一般只支持8-10kW,通常液冷数据中心单机柜可支持30kW以上的散热能力,并能较好演进到100kW以上。散热冷却系统所采用冷却技术不同,对应的移热速率差距也不同,一旦选择不合适的冷却系统,单机柜功耗与冷却系统能力不符合,会导致机柜温度不断升高,进而导致算力下降,对硬件设备造成不可逆损伤。