您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。基础数据的生产和训练是 AI 产业链的基石

基础数据的生产和训练是 AI 产业链的基石

分享
+
下载
+
数据
基础数据的生产和训练是 AI 产业链的基石
数据
© 2026 万闻数据
数据来源:财通证券研究所,《2023 大模型和 AIGC 产业图谱》(信通院)
最近更新: 2023-10-30
补充说明:1、E表示预测数据;2、*表示估计数据;

数据描述

我们认为,数据和高速是AI产业链投资逻辑的核心抓手,模型迭代速度和数据的传输速度是AI核心动能。预训练数据是AI模型感知世界的起点,为模型开发全生命周期提供数据价值,是AI产业链的基石。

ChatGPT大模型引领本轮生成式AI浪潮,纵观当前的AI产业链,上游数据来源于终端场景的采集,是算法感知世界的起点;中游模型开发是数据应用的工具;

根据澳鹏数据的调研,AI模型开发项目80%的时间和精力被用于数据管理,高质量的预训练数据能大幅地减少数据管理环节的时间消耗,提升模型的训练效果,实现模型开发全生命周期的降本增效提质。

当前海内外大模型逐步向多模态迁移,叠加虚拟人等应用场景的落地,多模态预训练数据品质和数量均需要快速提升。数据预训练通过对非结构化多模态数据进行跨模态特征的提取、对齐和融合,解决产业结合下多模态数据难以有效识别和语义信息深度利用的痛点,实现模型优化的降本增效提质。综上,我们认为多模态预训练数据是解决AI应用长尾问题的关键,大模型与垂直领域的产业结合趋势带来的多模态技术迁移,将进一步提升预训练数据环节的重要性。

伴随应用端落地,训练数据更扩展到垂直领域的多模态数据,同时AIGC浪潮下虚拟人等多模态交互需求诞生,多模态数据质和量均呈现快速增长趋势。叠加当前模型迭代更加倾向于向特定领域或特定方向上的优化迭代,实现融合标签化处理的多模态数据能够更好地为模型训练增效提质。因此,大规模、高质量多模态数据集的重要性愈加凸显,成为模型训练效果的核心支撑之一。