
Dojo作为一款高度专业化、超级算力的系统,将为人形机器人的智能化和自主化发展提供强有力的支持。特斯拉计划在2024年2月之前将Dojo建设成全球最先进的五台超级计算机之一。到2024年10月,Dojo的总算力规模预计将达到100Exa-Flops,相当于30万片英伟达A100芯片的算力。这种超级算力使得Dojo具备强大的处理视觉数据能力,该视觉处理能力不仅可以应用于汽车行业,还可以对机器人、医疗保健、安全等领域提供技术支持。任何装备摄像头并依赖视觉输入做出实时决策的设备都有望受益于Dojo的技术优势。
图18:2024年10月Dojo总算力规模将达到100Exa-Flops
资料来源:特斯拉,国信证券经济研究所整理
AI大模型+机器人,“具身智能”时代有望开启
具身智能是基于物理身体感知和行动的智能系统。根据CCF的定义,具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。早期的具身智能研究主要集中在机器人学和仿生学领域,逐渐发展并融合了跨学科的方法和技术。近年来,随着深度学习等技术的快速发展,具身智能研究进入了一个新的阶段。研究人员利用虚拟物理环境和强大的计算能力,设计和训练具备感知和行动能力的智能系统,并将这种交互能力迁移到真实世界、使智能体进行自主决策和执行物理交互任务。简而言之,即AI的思考能力+机器人的躯体。在大模型不断取得突破的背景下,科技大厂纷纷尝试将语言、视觉等模型嵌入机器人中,以帮助机器人处理复杂任务。
谷歌:PaLM-SayCan帮助机器人强化语言理解能力。2021年谷歌研究院宣布了对Pathways的愿景,希望其成为一个跨领域和任务泛化且高效的单一模型。PaLM展
示了Pathways系统的首次大规模使用,大约包含5400亿个参数、仅使用DensedecoderTransformer模型。PaLM结合使用英语和多语言数据集进行训练,其中包括高质量的网络文档、书籍、维基百科、对话和GitHub代码。PaLM与语言模型(Say)及函数(Can)结合,便有了PaLM-SayCan,能够帮机器人更好的理解复杂指令。