
从需求结构看,AI正在进入推理时代,AI应用也正在从聊天机器人Chatbot向智能体Agent演化升级,模型Token的调用量和算力的消耗正在显著的增加。截至2025年9月底,豆包大模型日均tokens调用量已突破30万亿,相比今年5月底tokens增长超80%,而相比2024年5月日均调用1200亿Tokens则增长超250倍。谷歌9月处理的Tokens用量已达1300万亿,日均43万亿。OpenAI也在开发者日宣布旗下API每分钟调用60亿tokens,且这只是API的部分,如果加上Tokens消耗量更大的ChatGPT订阅业务,这一数字还会更大。
而推理侧的“按需弹性”显著大于训练侧,需求端峰谷差与业务不确定性更高,对于云厂商,其自建集群的资本效率可能不及灵活租赁方案。因此,我们判断,大厂选择越来越多外租算力而非自建,将是2026年更具性价比的均衡策略。