
35.00%
300030.00%
250025.00%
200020.00%
150015.00%
100010.00%
5005.00% 0 2019 2020 2021 2022 2023
2024E
0.00%
资料来源:中商情报网,国联证券研究所
1.2大模型性能提升,成本下降
1.2.1GPT-4o迈向更自然的人机交互
GPT-4o实现原生多模态。北京时间5月14日凌晨,OpenAI发布了新一代多模态人工智能(AI)大模型GPT-4o,跨文本、视觉和音频端到端训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。GPT-4o可接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在短至232毫秒的时间内响应音频输入,平均为320毫秒,与人类的响应时间相似。根据基准测试,GPT-4o在文本、推理和编码智能方面实现了GPT-4Turbo级别的性能,同时在多语言、音频和视觉功能上达到了新的谷歌全面升级基础大模型及应用
Gemini模型全面升级。北京时间5月15日,谷歌召开了年度开发者I/O大会,发布了一系列AI驱动的产品和功能。Gemini模型全面升级:(1)升级版Gemini1.5Pro上下文长度突破200万token,超过目前所有商用大模型;(2)轻量级模型Gemini
1.5Flash发布,相较于旧有模型,实现了低延迟响应并降低使用成本,100万tokens只要0.35美元;(3)GeminiNano将具备多模态能力。多模态模型方面:(1)谷歌发布文生图模型Imagen3模型,能够更准确理解图像的文本提示词,并且生成的图片更具创造性和细节;(2)发布视频生成模型Veo,可以根据文本提示创建大约一分钟时长的1080p视频剪辑,可捕捉不同的视觉和电影风格,包括风景和延时镜头,并对已生成的镜头进行编辑和调整。