
数据是算法的素材,大模型复杂化需要更大规模的训练数据支持。根据长江存储系统解决方案公众号的数据,ChatGPT的算法模型已经达到1750亿参数,用于预训练的数据量达到45TB,并且随着ChatGPT的持续迭代,模型参数和数据量也在加速增长。受益大模型训练需求持续增长以及升级迭代,叠加数据产权保护加强,数据市场规模有望持续增长。同时,数据本身的质量会影响模型训练的效果,因此数据标注成为大部分Al算法有效运行的关键。数据标注指将原始数据进行处理,使其适用于机器学习和AI算法的学习和分析。尤其是自动化数据标注技术能够通过深度学习和计算机视觉等技术,减少人工标注需求,提高数据标注的效率和准确性,进一步推动数据服务行业发展。根据艾瑞咨询的数据,我国AI基础数据服务行业市场规模预计将从2018年的25.9亿元增长至2025年的101.1亿元,CAGR为21.5%。