
数字经济时代,海量数据对算力需求呈指数级增长。数据方面,以互联网、云计算、大数据为代表的数字技术高速发展,各种数字化终端设备大规模普及,通信、计算、应用、存储、监控等各类信息技术应用和网络逐渐融合,数据已成为全社会重要的生产要素之一。IDC Global DataSphere显示,2021年,全球数据总量达到了84.5ZB,预计到2026年,全球结构化与非结构化数据总量将达到221.2ZB。算力方面,数据量的快速增长,数据处理需求的不断提高以及数据资源的开放流动促进了算力开发与应用需求增长。根据Cisco的预计,2016年至2021年全球数据中心负载任务量将成长近三倍,从2016年的不到250万个负载任务量增长到2021年的近570万个负载任务量。
海量数据对存储安全提出要求,随着人工智能、大数据与社会融合越来越深入,海量的数据在为大数据和人工智能提供核心支持的同时,也对数据的安全和存储提出了新的需求。海量数据的存储需要多个硬盘数据的堆积,RAID卡已成为很多AI服务器的重要配置,未来将迎来广泛的市场空间。
训练侧,以GPT-3为例,根据《Language Models are Few-Shot Learners》一文中的数据,该模型参数为1746亿,训练所需Token数量为3000亿个,则训练所需浮点运算次数为3.14*10^8 PFlops,同时参考《PaLM: Scaling Language Modeling with Pathways》一文中的数据,Flops的利用率为21.3%,则GPT-3训练所需浮点运算次数约为1.47*10^9 PFlops。假设训练时间为30天,则每秒需要运算的浮点次数约为568.7PFlops。