
国产芯片之光:华为海思昇腾AI芯片。昇腾910和昇腾310两款AI芯片均使用华为的达芬奇架构,每个AI核心可以在1个周期内完成4096次MAC计算,集成了张量、矢量、标量等多种运算单元,支持多种混合精度计算 ,支持训练及推理两种场景的数据精度运算。
基于昇腾系列AI处理器和基础软件构建Atlas人工智能计算解决方案,包括Atlas系列模块、板卡、小站、服务器、集群等丰富的产品形态,打造面向“端、边、云”的全场景AI基础设施方案,覆盖深度学习领域推理和训练全流程,可以满足不同场景的大模型计算需求。
华为的全栈全场景AI解决方案日臻完善。主要基于昇腾系列处理器和基础软件构建的全栈AI计算基础设施、行业应用及服务,包括昇腾系列芯片、Atlas系列硬件、芯片使能、CANN(异构计算架构)、AI计算框架、应用使能等。
算力是衡量单卡性能的直观指标:参数方面,我们认为昇腾910芯片单卡算力已经可以与英伟达A100相媲美。
昇腾AI已孵化和适配30多个主流大模型,构筑AI新生态:在鲲鹏昇腾开发者峰会2023上,首批基于鲲鹏的一体化解决方案联合发布,而其中最瞩目的,莫过于孵化了众多国内大模型的昇腾AI,基于昇腾AI已孵化和适配30多个主流大模型,超过一半的中国原生大模型基于昇腾AI孵化,其中就包括了悟道大模型、鲲鹏大模型,鹏程系列、紫东系列等。
根据钛媒体消息,H100/H800是目前算力集群的主流实践方案。其中,H100理论极限在5万张卡集群,最多达到10万P算力;H800*实践集群在2万-3万张卡,共计4万P算力;A100*实践集群为1.6万张卡,最多为9600P算力。然而,如今新的H20芯片,理论极限在5万张卡集群,但每张卡算力为0.148P,共计近为7400P算力,低于H100/H800、A100。因此,H20集群规模远达不到H100的理论规模,基于算力与通信均衡度预估,合理的整体算力中位数为3000P左右,需增加更多成本、扩展更多算力才能完成千亿级参数模型训练。
由于美国芯片禁令的要求和限制,H20的算力性能相对较差,华为昇腾910半精度算力达320TFLOPS,对比H20提升约为216%,根据中新经纬报道,科大讯飞董秘、副总裁江涛在三季度业绩说明会上表示,当前华为昇腾910B性能已基本做到可对标英伟达A100。我们判断在拜登禁令的限制下,英伟达明年可能无法出口最新AI芯片