
人机交互是指借助计算机外接硬件设备,以有效的方式实现人与计算机对话的技术。在人机交互中,人通过输入设备给机器输入相关信号,这些信号包括语音、文本、图像、触控等的一种或多种模态,机器通过输出或显示设备给人提供相关反馈信号。服务机器人的人机交互,就是使用人机交互技术,通过屏幕、语音、手势视觉、Web后台等一系列的方式来控制机器人按照用户的意图执行任务。一个完善的机器人系统
需要友好的交互技术做支撑,功能齐全人机交互系统能极大提升机器人使用体验,吸引用户使用。
深度学习技术是近年来加快智能语音技术落地应用的关键。深度学习特别是大模型的流行,呈现出强大的表示能力和高准确率,对AI芯片提出了更高的要求。智能语音经历了从模版匹配、概率统计建模、再到深度学习方法主导的阶段,特别是端到端深度网络的出现让语音技术的大规模商业化成为可能。目前语音识别成功率在低噪声且近场环境下已达较高水平,仍会出现复杂环境下鲁棒性差、计算及训练资源消耗大、沟通方式不够人性化等问题,因此仍需在技术和场景应用层面继续改善。智能语音技术中,算法、数据、AI芯片是三大核心要素。AI芯片按用途分为训练芯片和推理芯片,按架构可分为GPU、FPGA、ASIC、类脑芯片,效率依次提升。
图45:2021年国内智能语音行业市场格局:科大讯飞占14%图46:2022年国内智能语音行业市场规模365亿元
数据来源:IDC中国,国泰君安证券研究数据来源:中商产业研究院
ChatGPT将人类反馈强化学习(RLHF)引入深度学习的方式,为将来服务机器人更智能化、人性化发展提供新思路。目前大规模商业化的语音技术多采用深度学习方法,ChatGPT的面世让人看到大模型同强化学习的结合能带来的机器理解力和内容输出能力的提升。生成式AI的表现出强交互能力和商业化潜力将赋能包括视频、图像、语音在内的多种相关产业的进展。未来基于类ChatGPT模型并结合语音合成和语音识别的智能语音方案将成为一轮包括养老、教育类服务机器人厂商角逐的技术和迭代方向。
中国智能语音市场规模稳定扩大,2021年增至365亿元,2017-2021复合增速28%。2017-2021年,中国智能语音市场规模从106亿元增值285
亿元,预计2022年市场规模增至365亿元。核心算法、数据一般由厂商自主研发和采集,国内智能语音市场呈现头部集中的竞争格局。科大
讯飞凭借其长期在语音技术的积累以13.7%的市场份额位列第一;阿里、百度为代表的互联网公司的算法和研发优势明显,合计占20%的市场份额。