
数据来源:OPENAI,英伟达,谷歌,腾讯,百度,彭博,广发证券发展研究中心
AIGC产业链大致可以分为三层,应用层、模型层和基础设施层。其中应用层为训练好的模型应用于网络平台/数据中心或边缘端,即为模型的推理过程;模型层为
开源预训练模型的训练过程或非开源预训练模型的API调用,即模型的训练过程;基础设施层则分为两部分,一部分是是开放式云平台,另一部分则是用于LLM训练与部署的计算、存储、连接芯片等硬件。
数据来源:a16z,广发证券发展研究中心
大模型的训练和推理对算力需求庞大。(1)训练是指生成一个大模型的过程;
(2)推理是指将搭建好的模型于实际应用中使用。由于训练和推理过程其特点有所不同,在此我们分别对AI大模型在训练阶段和推理阶段的算力需求进行测算:
(1)AI大模型在训练阶段算力需求测算
我们以参考NVIDIA发表的文章《EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LM》中对不同参数GPT模型算力需求的计算方法及NVIDIAA100在模型训练过程的参数,对以GPT-3.5175B为代表的大模型的训练算力需求进行测算,测算主要基于以下关键假设:�考虑到大模型训练的时间要求,假设模型单次训练时间为30天,即每年可进行约12次训练;②训练阶段每个A100吞吐效率为48%。此外,我们假设每台AI服务器均配有8张A100。