回顾NLP发展历程,模型越来越“大”是非常确定的趋势。回顾近几年发布的大模型,ChatGPT背后的GPT-3有175B的参数规模,Google发布的PaLM则达到了540B的规模。
模型增大后表现出的涌现效应,构成了大模型超预期的通用能力,也是大模型通用能力的重要来源。涌现能力指的是在小型模型中并不存在,但在大模型中“突然出现”的能力,包括常识推理、问答、翻译、数学、摘要等。大模型在部分下游任务上的表现在规模达到10时会有明显的跃升(如图表11)。