
机器学习将有效降低人工标注的数据成本。有50000人参与了图片数据库ImageNet中1400万张图片的标注,与此相比,Clip使用的是互联网上公开的文本-图像对,在标注方面,也利用自监督学习、对比方法、自训练方法以及生成建模等方法减少对人工标注的依赖。在实现图像标签的自动机器学习后,数据人工标注的成本将被大幅降低。
大模型实现自动机器学习之后,可通过知识蒸馏将识别迁移传到至边缘模型,提高模型通用性。我们认为ChatGPT的成功,标志着AI应用从以专用小模型训练为主的“手工作坊时代”转变为以通用大模型预训练为主的“工业化时代”。1)通过实现机器自动标注数据、高精度带来的数据样本量扩大等因素,人工数据标注的成本大幅降低。2)机器自动标注促使大规模预训练成为可能,提高了基础模型的泛化能力,降低了定制化需求的成本。简而言之,AI大模型学习了各行各业各类数据,成为具备良好的知识迁移能力的“通才”,只需根据下游应用具体场景对参数进行微调,便可实现靶向高速处理。
多模态时代开启,目前文本-图像模型为主。多模态机器学习旨在建立能够处理和关联来自多种模态的信息的模型,常见的模态包括视觉、文字、声音等。2023年以来,各科技巨头纷纷推出多模态大模型,包括谷歌PaLM-E、微软KOSMOS-1、GPT-4和百度文心一言等。
目前多模态大模型以文本-视觉领域为主,实现了视觉对话、视觉解释、AI生成图像等突破。未来多模态模型或将逐步接入音频、视频等模态形式,进一步丰富数据类型。