您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。数据预训练服务商是 AI 数据产业链中承上启下的关键一环

数据预训练服务商是 AI 数据产业链中承上启下的关键一环

分享
+
下载
+
数据
数据预训练服务商是 AI 数据产业链中承上启下的关键一环
数据
© 2026 万闻数据
数据来源:《中国 AI 产业报告》(艾瑞,2022),德勤官方公众号,财通证券研究所
最近更新: 2023-10-30
补充说明:1、E表示预测数据;2、*表示估计数据;

数据描述

我们认为,AI预训练数据承接下游采集的全新场景数据,为下游客户场景落地的的算法迭代提供高效燃料,进一步满足场景功能性的拓展。AI预训练数据服务有望伴随场景应用的落地而快速成长。根据德勤预测,2027年AI预训练数据服务市场规模有望达到160亿元,2022-2027五年复合增速为28.9%。

和传统的深度学习模型相比,大模型的数据数量需求指数级增加。传统深度学习技术路线下,训练小模型大约需要GB级数据,但训练大模型通常需要TB级数据,如GPT-3原始文本语料多达45TB。

叠加当前大模型优化的边际效用下降,优化迭代的成本指数性增加,算法竞争的准入门槛逐步提高,科技巨头逐渐形成各自的算法护城河。依靠大模型性能和自身强劲的资本优势,巨头有望领先发力垂直领域的模型整合,叠加政策频频加码(表4)助力场景落地,应用场景拓展有望成为AI大模型算法迭代创新的新动能。