
人形机器人通常指模仿人类物理形态以及具体行为的智能机器人。人们可以对人形机器人进行指令控制,使其与人互动并执行需要像人一样灵巧而智能的任务。相比于传统机器人,人形机器人的核心突破在于人机交互,即能够听懂人的语言指令并进行分析推断以及决策执行。
“具身智能”的机器人是人工智能的终极形态。英伟达CEO指出,人工智能的下一个浪潮是具身智能(Embodied AI)。具身智能指的就是能够感知并理解周边环境,通过自主学习完成任务的智能体。我们预计目前快速发展的自然语言大模型将会对“具身AI”的研发有极大的推动作用,进而催化人形机器人应用落地。
人形机器人的核心突破需具备三个因素。人形机器人具备以下三个因素,使其和传统机器人有本质区别:1)像人一样有大脑;2)像人一样有完整的躯干;3)大脑能对身上各部位各器官进行控制。三者分别对应:AI大模型(交互模块)、视觉传感及感应器等(感知模块)、电机执行器(运动控制模块)。
AI赋能集中在交互模块。2023年以来,ChatGPT的问世被誉为人工智能的奇点时刻。在AI浪潮下,机器人人机交互的能力得到大幅提升。通过引入多模态输入,可以增强模型对于现实对象的理解,从而帮助其更好地处理具身推理任务。其中,微软团队于2023年2月发布《Chat GPT for Robotics:Design Principles and Model Abilities》,研究人员展示了多个ChatGPT解决机器人难题的案例。持续迭代的大模型将进一步提升人机交互能力,从而加速人形机器人的落地。