
英伟达的GPU虽在AI训练端属不二之选,对比市场同类训练产品也具有显著优势。然而,推理端的门槛相对较低,且应用场景和需求更为多元,目前各类芯片都在此领域获得一席之地,因此AI推理方面英伟达仍面临着激烈竞争。从发展历程来看,传统推理端主要依赖CPU去处理相对简单和对算力要求较低的推理任务。不过,目前AI模型的规模和复杂度跟过去相比已提升了不少,随着更多工作负载将逐渐纳入到推理领域,因此对于推理算力的要求也会越来越高,或将在一定程度上带动更多GPU在推理领域的应用。但我们需强调,推理所需要的算力本身比训练所需要的算力低,因此英伟达的高算力在推理端不一定像其在训练端般拥有明显优势。另外,数据中心里拥有各类不同的芯片,而不同的AI工作负载应该在哪一片芯片上运行,将取决于适配度以及性价比。因此,各类芯片也有其不同的优势。在这领域里英伟达的高性能推理芯片正面对着各种竞争对手,除了CPU之外,也包括AMD的GPU、英伟达的GPU(包括老款)、FPGA和ASIC等。
我们认为,英伟达凭着高算力硬件和高粘性软件生态两大护城河,是人工智能训练端的不二之选。根据不同芯片在AI论文中的引用数量可知,英伟达的芯片在AI研究论文中最受欢迎,其产品的使用率是ASIC的131倍,是Graphcore(未上市)、Habana(给Intel收购了)、Cerebras(未上市)、SambaNova(未上市)和寒武纪(688256 CH)五家总和的90倍,是谷歌TPU的78倍,是FPGA的23倍。一般来说,在人工智能领域,新模型的推出都会发表相关论文便于信息交流与学术合作,英伟达在人工智能相关的论文中遥遥领先的引用数量,也反映了新算法需采用英伟达GPU的必要性,以及其在学术界长期以来的重要地位和影响力。
英伟达持续迭代高性能计算芯片,在产品工艺、计算能力和存储带宽等不断创新。面向高性能计算和深度学习场景,英伟达基于其芯片架构,打造了一系列支持提升张量核心和稀疏矩阵计算等能力的GPU产品。2023年,英伟达已不满足于单GPU的更新换代,重磅推出结合Grace CPU与Hopper GPU的GH200超级芯片,实现了高达900GB/s的总带宽,加速大规模AI和HPC应用计算。在一年后的SIGGRAPH上,英伟达的AI芯片再迎升级,推出了全球首次采用HBM3e内存的GH200超级芯片。该芯片的带宽高达每秒5TB并能提供141GB的内存容量,适用于复杂的生成式人工智能工作负载,如大型语言模型、推荐系统和矢量数据库等。