
我们认为,AI预训练数据承接下游采集的全新场景数据,为下游客户场景落地的的算法迭代提供高效燃料,进一步满足场景功能性的拓展。AI预训练数据服务有望伴随场景应用的落地而快速成长。根据德勤预测,2027年AI预训练数据服务市场规模有望达到160亿元,2022-2027五年复合增速为28.9%。
和传统的深度学习模型相比,大模型的数据数量需求指数级增加。传统深度学习技术路线下,训练小模型大约需要GB级数据,但训练大模型通常需要TB级数据,如GPT-3原始文本语料多达45TB。
叠加当前大模型优化的边际效用下降,优化迭代的成本指数性增加,算法竞争的准入门槛逐步提高,科技巨头逐渐形成各自的算法护城河。依靠大模型性能和自身强劲的资本优势,巨头有望领先发力垂直领域的模型整合,叠加政策频频加码(表4)助力场景落地,应用场景拓展有望成为AI大模型算法迭代创新的新动能。