人形机器人规模化应用项目可行性研究报告

2023-06-06 11:11:12

人形机器人规模化应用项目可行性研究报告

2023 年 5 月 31 日，中共深圳市委办公厅、深圳市人民政府办公厅发布《深圳市加快推动人工智能高质量发展高水平应用行动方案（2023—2024 年）》，旨在打造国家新一代人工智能创新发展试验区和国家人工智能创新应用先导区，创建全球人工智能先锋城市。

政策强调通用大模型和具身智能机器人的核心技术科研攻关。《方案》提及相关领域包括通用大模型、智能算力芯片、智能传感器、智能机器人、智能网联汽车等；实施方法为“重大专项扶持计划”；重点方向为：1）基于国内外芯片和算法的开源通用大模型；2）通用型具身智能机器人；具体实施方案包括：“支持科研机构与企业共建 5 家以上人工智能联合实验室”，“组建广东省人形机器人制造业创新中心”。政策方案在国内具有引领性，一方面，智能机器人是多种智能软件和硬件技术集大成者，技术攻关过程中会带动全产业链发展，另一方面，智能机器人是应用范围最广、市场空间最大的产品，在产业初期开始开始培育相关产业链具有前瞻性和战略意义

“深圳率先提出人形机器人规模化应用，走在全国最前列。《方案》明确提出：“支持开展人形机器人规模化应用”。针对软硬件产业链，提出“实施产业链关键环节提升扶持计划，采取‘揭榜挂帅’方式鼓励共性通用技术产品研发及产业化”。产业链涉及软件层面的算法大模型，硬件层面的执行机构、传感器、壳体等。参考全球人形机器人成熟方案，躯干关节部分的无框电机、谐波减速器、行星滚柱丝杠、传感器、编码器，手指部分的空心杯电机等为确定性较强的产品。但在商业化早期阶段，各种软硬件技术存在不确定性和巨大的发展潜力，值得持续跟踪和挖掘。公共服务＋AI”、“城市治理+AI”或是更快落地的应用场景，未来走向“千行百业+AI”。

《方案》在 AI 应用场景部分提到两个方向：1）“公用服务+AI”，具体包括民生诉求平台 AI 机器人、辅助临床解决的医疗领域 AI 及机器人、公共场所 AI 机器人如机场、车站、公园、旅游景区等；2）“城市治理+AI”，包括智能网联汽车、市容巡查机器人、安全监管图像识别、视频分析、监测预警等技术应用，以及金融、商务、工业、交通、制造业等行业利用 AI 提升产品性能。我们认为，商用服务场景满足应用难度相对低、价格敏感度低、市场需求强烈、接受度高等要求，是最有望先应用落地的 AI 机器人场景，同时也为智能机
器人走进特种环境、工业、家庭奠定基础。

人形机器人方向的受益标的主要是产业链供应商和人形机器人的核心零部件厂商，人工智能大模型推动多行业机器人的发展。
1．“具身智能”机器人是人工智能终极形态
英伟达创始人 CEO 黄仁勋强调“具身智能”的重大价值。黄仁勋在 ITF World 2023半导体大会上表示，人工智能的下一个浪潮是具身智能（ Embodied AI），即能理解、推理、并与物理世界互动的智能系统，比如机器人、自动驾驶汽车，甚至聊天机器人，他们都能很好的理解物理世界。同时，黄仁勋公布 Nividia VIMA，一个多模态具身视觉语言模型。据介绍，VIMA 可以通过视觉执行任务，也可以通过文本提示来做任务，比如重新排列这些方块以与场景匹配；它能明白概念，采取适当行动，他可以在演示中学习，并且将行为控制在合理范畴内。
具身智能：
“具身智能”的机器人是人工智能的终极形态。1950 年，图灵在他的论文 ——《Computing Machinery and Intelligence》中首次提出了具身智能的概念。具身智能（Embodied AI ）指的是，有身体并支持物理交互的智能体，如智能服务机器人、自动驾驶汽车等，具身智能机器人指的是，像人一样能够与环境交互感知、自助规划、决策、行动、执行任务的机器人。它包含人工智能领域几乎所有的技术，包括机器视觉、自然语言理解、认知和推理、机器人学、博弈伦理、机器学习等，横跨多个学科方向，是人工智能的集大成者

现有机器人难以适应现实世界，是因为其学习模式为“旁观型学习方式”。目前大部分深度学习模型训练使用的数据来自于互联网（Internat AI）而非现实世界第一人称视角，只能学习到数据中心的固定模式，但无法在真实世界中直接学习，因此也无法适应真实世界。现实当中的人类是通过对现实世界的观察、互动、反馈等学习，大脑中的部分认知依赖物理身体与世界持续不断的交互，因此学习到越来越多的技能来适应环境。

具身智能是通往通用人工智能的关键钥匙，赋予机器人实践学习的能力。斯坦福大学的李飞飞教授称“具身的含义不是身体本身，而是与环境交互以及在环境中做事的整体需求和功能。”上海交通大学的卢策吾教授通过猫学习走路来做出形象比喻：“如图中的猫一样，主动猫是具身的智能，它可以在环境中自由行动，从而学习行走的能力。被动猫只能被动的观察世界，最终失去了行走能力。”实践性学习方法与旁观型学方法的不同点在于，实践性学习是机器人像人一样，通过物理身体与环境的互动来学习，可以主动感知或者执行任务的方法来感知世界，对世界进行建模，增强对世界的认知和锻炼行动能力。

具身智能的现实应用存在诸多难点，涉及到多学科知识。拆解具身智能的应用过程：当人要求机器人完成某一项任务，机器人要经过的步骤包括：能够听懂人类语言分解任务规划子任务移动中识别物体与环境交互最终完成相应任务。这个过程涉及到自然语言理解、逻辑推理、机器视觉、运动控制、机器学习、运动规划、机械控制等。因此，要实现完全的具身智能，依然有很长的一段路要走。

谷歌、微软、UCBerkeley 等走在技术前沿
具身智能已成为全球学术和企业的重要的研究方向。今年的 IROS（机器人领域顶级学术会议）将具身智能作为重要主题。目前谷歌、微软等技术团队、众多顶尖研究院所和高校已探索具身智能的发展落地。参考申万 TMT 团队的《跨模态：更多应用场景出现，中国公司得到更大机会》、《Meta 发布 SAM 分割模型，或成 CV 大模型第一步》，我们对最新的机器人算法模型进行梳理：
1）谷歌：视觉语言大模型 PaLM-E
2023 年 3 月 6 日，来自谷歌和德国柏林工业大学的一组人工智能研究人员公布了史上最大视觉语言模型 PaLM-E（Pathwa ys Language Model with Embodied）。PaLM 包括了 540B 语言模型与 22B 视觉 ViT（Vison Transformer ）模型，最终参数量达 562B。PaLM-E 本身是个多模态的大模型，不仅能理解文本，还能理解图片（ViT），可以理解图片中的语义信息。ViT 将大模型能力泛化至 C V 领域，赋予大模型视觉能力。两相结合，PaLM-E 模型具备多模态能力，能够观察物理实体世界的信息，由大模型进行分析理解，再将决策结果反馈至物理世界，由此沟通物理和虚拟两个世界。

亮点在于多模态大模型应用于人机交互领域。1 ）发现参数扩大有助于提升人机交互中的语言能力：语言模型越大，在视觉语言与机器人任务的训练中，保持的语言能力就越强，5620 亿参数的 PaLM-E 几乎保持了它所有的语言能力。2 ）对于机器人的长跨度、长周期任务，以往通常需要人工协助， PaLM-E 通过自主学习全部完成，如下图左。3）展示了模型的泛化能力，研究人员要求机器人将“绿色色块推到乌龟旁边”的指令，即便机器人之前没有见过这只乌龟摆件，也能完成任务。

同时 PaLM-E 通过分析来自机器人摄像头的数据来实现对高级命令的执行，而无需对场景进行预处理。这消除了人类对数据进行预处理或注释的需要，并允许更自主的机器人控制。
2）Meta：SAM 分割模型
2023 年 4 月 6 日，Meta 推出一个 AI 模型 Segment Anything Model（SAM，分割一切模型），能够根据文本指令等方式实现图像分割。SAM 任务目的：零样本（zero-shot）或者简单 prompt 下，就对任意图片进行精细分割。SAM 证明，多种多样的分割任务是可以被一个通用大模型涵盖的。SAM 做到的分割一切并不是 CV 大模型的终点，我们期待一个模型可以无监督完成分割、检测、识别、跟踪等所有 CV 任务，届时视觉大模型应用会得到极大发展。

3）微软: ChatGPT for Robotics
在 Microsoft Research 的 ChatGPT for Robotics 文章中，研究者使用 ChatGPT生成机器人的高层控制代码，从而可以通过自然语言和 ChatGP T 交流，使用 ChatGP T 来控制机械臂、无人机、移动机器人等机器人。
目前的机器人的应用基础是代码，工程师需要经常编写代码和规范来控制机器人的行为，这个过程缓慢、昂贵且低效，使用场景有限。ChatGPT 带来一种新的机器人应用范例，通过大型语言模型 (LLM) 将人的语言快速转换为代码。在这种情境下，人们不需要学习复杂的编程语言或机器人系统的详细信息，就可以控制机器人来完成各种任务，更轻松的与机器人互动。目前实验已经能够通过给 ChatGPT 的对话框输入指令，让其控制机器人在房间中找到“健康饮料”、“有糖和红色标志的东西”(可乐)，以及一面供无人机自拍的镜子。

4）伯克利的 LM-Nav 模型：
UC Berkeley、波兰华沙大学联合谷歌机器人团队发表论文《LM-Nav：具有大型预训练语言、视觉和动作模型的机器人导航系统》，该模型结合了三种预训练模型，从而无需用户注释即可执行自然语言指令。其中，大语言模型（LLM）用于完成自然语言处理的任务；视觉和语言模型（VLM）将图像和文本信息进行关联，即用户指令和机器人视觉感知的外部环境进行关联；视觉导航模型（VNM）用于从其观察到的信息中直接进行导航，将图像和将要执行的任务按时间进行关联。

3．具身智能落地应用机器人的方向

随着具身智能的发展，跨模态大模型应用于机器人的案例不断出现，各行各业、各种形态的机器人有望持续涌现。技术层面，我们认为具身智能最先解决的可能是人机交互问题，现有 GPT 等多模态大语言模型已经开始应用，让机器人听得懂人的语言指令；其次解决机器人的决策能力，即分析、推理、判断等能力，深度学习、神经网络、强化学习等将是机器人重要的学习手段；最后解决机器人的执行能力，让机器人处理现实中的复杂任务。

考虑到降本周期、应用难度、市场接受度等因素，我们认为最先应用的落地的可能是价格不敏感的、应用难度较低、市场接受度较高的机器人类型，排序如下：
1）商用服务机器人：接待机器人、迎宾机器人、服务机器人、导购机器人等，商用场景的价格敏感度较低，应用场景简单，市场接受度高，或成为最先落地的场景；
2）特定行业的功能型机器人：电力巡检类操作类机器人、轨道交通的检修机器人、矿山里的机器人、农业机器人、建筑机器人等，此类环境危险恶劣，对机器人的需求度高，价格不敏感；
3）家庭服务机器人：家务机器人、陪伴机器人等，toC 场景的价格敏感度较高，并且家庭是非结构化环境，外部环境和任务较为复杂，因此落地进度或慢于 toB 场景；
4）通用型人形机器人：人形机器人具有最完善的具身智能，能够集成各项人工智能技术，也是最为通用的机器人类型，潜在应用空间最为广阔，或成为机器人的终极形态。