
根据《智能计算中心创新发展指南》,AI服务器是智算中心建设中投入比重最大、最为关键的设备。AI服务器是智算中心的算力机组。当前AI服务器主要采用CPU+AI加速芯片的异构架构,通过集成多颗AI加速芯片实现超高计算性能。目前业界以NVLink和OAM两种高速互联架构为主,其中NVLink是NVIDIA开发并推出的一种私有通信协议,其采用点对点结构、串列传输,可以达到数百GB/s的P2P互联带宽,极大地提升了模型并行训练的效率和性能。
根据IDC发布的《中国半年度加速计算市场(2022下半年)跟踪》报告,2022年中国AI服务器市场规模达到67亿美元,同比增长24%。其中GPU服务器依然是主导地位,占据89%的市场份额,达到60亿美元。同时NPU、ASIC和FPGA等非GPU加速服务器以同比12%的增速占有了11%的市场份额,达到7亿美元。
大模型参数量和训练数据复杂性快速增长,对智算系统提出大规模算力扩展需求。通过充分考虑大模型分布式训练对于计算、网络和存储的需求特点,可以设计构建高性能可扩展、高速互联、存算平衡的AI集群来满足尖端的智能计算需求。
2023年7月,华为宣布昇腾AI集群全面升级,推出首个万卡AI集群,拥有更快的训练速度和30天以上的稳定训练周期,十倍领先业界。目前,昇腾AI集群已支撑全国25个城市的人工智能计算中心建设,其中7个城市公共算力平台入选首批国家“新一代人工智能公共算力开放创新平台”。