
大模型已延伸至多模态领域,探索将文本、图像、音频、视频等多个模态的特征进行融合与对齐,并映射到一个共享的语义表示空间,实现模态互通。大模型的下游应用场景丰富:
•生产力:包括信息搜索、写作、代码开发、教育、办公行政、学术研究、商业分析等,全面涵盖个人工作和生活。代码赛道是AI实现突破的典型案例,旗舰产品包括Claude Code(Anthropic的Coding应用)、Cursor(面向专业开发者的代码编辑器)和Windsurf(企业级安全代码开发工具)。除了专业代码市场之外,2025年也涌现了大量专为无编程背景的一般使用者设计的“vibe coding”工具。例如Lovable和Bolt.new等平台让任何人都能仅通过自然语言输入来创建应用。
•娱乐:包括互动、生活陪伴和广泛的日常问答等。头部代表产品为Character AI、Talkie/星野。•视觉生成:图像生成是率先实现商业化的赛道,下游用户主要为平面设计、影视、广告、电商等领域的专业创意设计人群和个人爱好者。代表性产品为GPT-4o、Midjourney、Flux、Nano Banana等。视频生成是2024年快速增长的赛道,PMF明确,下游需求来自影视、短视频、短剧、广告、电商等多个行业,市场空间巨大。代表产品为Sora、Veo、海螺AI、可灵等。•音频生成:语音是AI时代的通用交互入口,下游应用市场广阔。面向企业,AI语音Agent在招聘、金融、医疗等场景的销售和客服中突破人力瓶颈;面向创作者,其在有声书、教育、配音、游戏等场景提供贴近真人并富含情感表现力的语音能力。该赛道的头部玩家为OpenAI、MiniMax、ElevenLabs等公司。•通用2B服务:OpenAI、Anthropic等各大模型公司普遍以开放平台的形式,将模型能力以API形式提供给开发者和企业客户,助力行业AI应用生态繁荣。Microsoft、Amazon、Google、阿里等云厂商,也通过API、行业解决方案、私有化部署等,提供模型及配套工具和人力服务。