
图表29:2020-2027年中国AI基础数据服务市场规模图表30:2020-2027年中国数据治理与面向AI的数据治
理市场规模
67 56 46 37 29 27 31 80 70 60 50 40 30 20 10 0
2020202120222023E2024E2025E2026E2027E
30%
25%
20%
15%
10%
5%
0%
-5%
-10% 350 300 250 200 150 100 50 0
302 265 232 198 162 133 89 106 102 121 71 86 29 35 45 56
2020202120222023E2024E2025E2026E2027E
来源:艾瑞咨询,国金证券研究所来源:艾瑞咨询,国金证券研究所
垂类模型的训练需要海量优质且合法的数据资源,其中包含两方面的维度,第一是海量的数据资源,第二是优质且合法的数据资源。
在垂类模型的训练过程中,在保证数据质量的前提下,训练数据量越大,模型的推理能力就越强;训练数据集的丰富度和全面性越高,模型泛化能力越强;数据更新的及时性越高,模型的实用性就越强。单一企业所拥有的数据难以同时满足质量、规模、多样性、实时性方面的要求,使得模型性能提升存在瓶颈,需要通过数据流通补充企业所缺少的数据资源。当前阶段,模型厂商主要通过共建生态或者数据交易两种方式获取垂类数据,百度、科大讯飞等厂商与各行业企业建立起生态合作关系,在行业数据、模型算法上实现优势互补;Reddit4月份宣布将对调用其API的公司收费,中文在线按照采集数据包的大小及数据类别对模型厂商进行收费。