人形机器人,也迎来ChatGPT时刻?

首页 热门新闻 最新资讯

人形机器人,也迎来ChatGPT时刻?

热搜大全 2024-01-28

人形机器人,也迎来ChatGPT时刻?

2024 年才一开年,一款名叫 Mobile ALOHA 的机器人就因为 " 会炒菜 " 在 X 上出了名,还被各种大 V 轮番转发。

人形机器人,也迎来ChatGPT时刻?

▲ Mobile ALOHA 在做菜 图源:斯坦福大学

可能很多人会有疑问,都 2024 年了,机器人会炒菜早已不是什么新闻,为什么这款机器人会如此备受关注?原因很简单,因为 Mobile ALOHA 的 " 炒菜 " 技术,和之前的炒菜机器人完全不是一回事。

传统炒菜机器人大多是滚筒结构,需要人工进行备菜,机器人按照设定的程序将配菜按顺序倒入滚筒,然后滚筒翻滚,在翻滚的过程中,机器人的调料瓶可以自动挤出调料。

但 Mobile ALOHA 却可以使用人类的案板和刀具、使用人类的灶具和炒锅,它也没有专属的调料瓶,而是如人类一样,用 " 手 " 拿起盐罐和酱油。总之,它如同真人一般,完成了一整套炒菜的流程。

只这一点,Mobile ALOHA 就已经完全颠覆了传统机器人的工作方式。

2021 年 8 月,马斯克首次公布了特斯拉的人形机器人计划。之所以选择人形机器人,是因为这是当前最适合人类生活环境的机器人形态,它不需要为了适配机器人的工作而改造环境,也不必为机器人单独制造额外的工具。

它完全可以像人一样,走人类所走的路、用人类的工具参与劳动。

但人形机器人一直存在一个很大的问题——学人走路很简单,学人做事却很难。

1 月中旬,马斯克曾在 X 上展示了特斯拉的人形机器人 Optimus Gen 2 叠衣服的视频,在视频中,Optimus Gen 2 的动作仍然笨拙,并且这套展示还不是机器人自主执行的操作。

人形机器人,也迎来ChatGPT时刻?

▲马斯克 X 平台截图

作为对比,Mobile ALOHA 表现出来的能力,就更加具有冲击力了。

而 Mobile ALOHA 之所以能有如此亮眼的表现,关键在于斯坦福团队使用了行为克隆(BL)的方法,由人带着机器人针对某个动作重复操作 50 多次,之后机器人就能够自主完成相应的动作。

这种由人类直接参与的训练方式,与去年引爆 ChatGPT 的路径有许多相似之处。

2023 年初,OpenAI 推出的 ChatGPT 引爆全球,推动这一点的关键技术就是 " 人类强化反馈学习 ",它通过将人类反馈作为 " 奖励 " 和 " 惩罚 " 引入 AI 训练,打破了原来大模型训练的瓶颈。

而现在,随着行为克隆(BL)方法在机器人训练上的使用,曾经一直桎梏人形机器人训练的技术也迎来新的突破。似乎,人形机器人正在迎来自己的 "ChatGPT 时刻 "。

  这一次,终于轮到了华人?

在世界科技发展的前沿,华人的身份总是在国内受到额外的关注。

比如大家会关注 OpenAI 的华人工程师,关注马斯克超过三分之一的华人团队,关注时代周刊 " 全球百大 AI 人物 " 榜单中的华人入围数量。

虽然华人在世界科技发展的前沿占据重要的地位,也做出过许多不可磨灭的贡献,但到目前为止,引领世界科技浪潮的华人角色仍然屈指可数。

但这一次不同,如果行为克隆(BL)成为打开人形机器人大门的钥匙,那华人也将站在世界科技变革的中心。

作为一款家政机器人,Mobile ALOHA 由斯坦福大学的华人团队研发,其核心成员包括 Zipeng Fu、Tony Z.Zhao 和他们的导师 Chelsea Finn。其中 Zipeng Fu 是项目共同负责人,他是斯坦福人工智能实验室计算机学博士生,也是谷歌 Deep Mind 学生研究员。Tony Z. Zhao 则是斯坦福大学的计算机科学博士生。

人形机器人,也迎来ChatGPT时刻?

▲ Mobile ALOHA 主创团队

虽然我们前面在讨论人形机器人,并认为 Mobile ALOHA 能够为人形机器人的训练带来变革,但从外观上讲,Mobile ALOHA 和 " 人形 " 几乎毫不相关。

Mobile ALOHA 的构造极其简单,1 个移动底座(AgileX Tracer AGV);两只手臂(ViperX 300),配有 2 个腕部摄像头和 1 个顶部摄像头,然后在底座上搭配有机载电源和计算设备。

它的实物长这样:

人形机器人,也迎来ChatGPT时刻?

▲ Mobile ALOHA 样机

Mobile ALOHA 的操作模式分为两种,一种是真人遥控操作,另一种是全自动操作。

在遥控模式下,操控者可以将自己的腰部和底座连接,通过扭动腰部直接驱动轮子实现移动控制,同时,操作人员可以通过后端的机械臂控制前端的机械臂。而在自动模式下,这一切都由计算机在统一操控。

和特斯拉 Optimus Gen 2 的演示视频并非机器人独立操作的一样,X 平台上广泛流传的 Mobile ALOHA 的演示视频也并非由机器人独立完成,而更多是两种模式混合下的操作结果。

人形机器人,也迎来ChatGPT时刻?

▲ X 平台截图

但即便如此,Mobile ALOHA 的操作,也给机器人训练带来巨大的突破。比如像炒个虾仁、擦拭酒瓶、冲洗盘子等简单的动作,只需要操作员手把手带着机器人重复 50 次,机器人就能够学会并自主操作。

这个过程,就类似小时候,妈妈手把手带着我们握笔和写字一样。但模仿学习的过程对于人类来说,其实并不容易,对机器人来说就更是如此了。

2018 年,波士顿动力一段机器人翻跟头、跨越障碍的视频在网络上走红,成为国内对人形机器人最早的科普。大家当时普遍惊讶于波士顿动力的机器狗,对于特技动作的控制能力,但实际上,对于机器人来说,实现翻跟头、跳跃、鞠躬,要比实现做家务简单多了。

这种现象有一个专有名词—— " 莫拉维克悖论 "。

这个概念是人工智能和机器人学领域的先驱汉斯 · 莫拉维克提出的,它描述了在计算机和机器人系统中一个有趣且非直观的现象:对于人类来说简单的感知和运动任务,对计算机和机器人而言却异常困难;而相反,人类认为复杂的逻辑和抽象思维任务,对计算机来说却相对容易。

Mobile ALOHA 之所以能够如此轻松地完成一些简单动作,关键在于斯坦福团队在机器人模仿学习能力上的突破。

模仿学习有几个 " 难啃 " 的骨头。

比如复杂的感知能力和环境适应能力,模仿学习要求机器人需要高度发达的感知能力,包括视觉、听觉、触觉等多种感官输入的综合处理,以理解和模仿人类行为。

比如精确的动作复制能力,人类的动作细微且流畅,机器人如果要精确复制,不仅需要复杂的机械结构,还需要高度精确动作控制算法。

最后还有机器人的多样性和泛化能力,人类可以将学过的技能在多种不同场景中复用,但对于机器人来说,每一个新的场景都是一次新的学习。

人形机器人,也迎来ChatGPT时刻?

为了应对这些难题,机器学习领域开发了各种不同的模仿学习方法,其中主流的方法有三个,包括行为克隆(BL)、逆强化学习(IRL)和生成对抗模仿学习(GAIL)。对于 Mobile ALOHA,它的目标只是为了完成简单动作,泛化要求低,且希望在短期内看到效果。所以他们选择了行为克隆(BL)的方法。

简单来说,行为克隆是一种将观察映射到行动的方法。比如我们看到有人举着手向你迎面走来,你可能会下意识地击掌,比如在你打电话的时候,别人给你任何东西,你都会下意识地接住。

行为克隆就是利用这个原理,将一部分场景与机器人的行为进行对应。确定了模仿学习的路径后,Mobile ALOHA 其实还有一些问题需要解决。

首先是移动问题。在传统的行为克隆学习方法里,机器人可以学习各种原始技能,比如简单的 " 拾取 " 和 " 放置 ",但是在现实生活中,更多场景需要机器人具备调动全身运动的灵活性,比如煎完虾滑后,需要机器人移步到身后的餐桌,将虾滑倒入碗中,这就要求机器人会举起锅、移步、转身、反手倒入等。

Mobile ALOHA 通过将其安装在轮式底座上,扩展了原始 ALOHA 的功能,即低成本、灵巧的双手操纵木偶装置。

其次是如何在短时间内实现高效率数据搜集的问题。Mobile ALOHA 通过执行监督行为克隆,与现有静态 ALOHA 数据集的联合训练,可以提高移动操作任务的能力。

最后则是复合性误差的问题。前面提到行为克隆模仿学习将 " 状态 " 和 " 行为 " 深度绑定,所以一旦机器人的 " 行为 " 产生误差,就可能改变预期的状态,从而下一个行为产生偏差。

为了解决这一问题,斯坦福团队从神经科学获得灵感,将独立的动作组合成一个单元,简单地说,就是将一系列 " 状态 " 进行打包,以单元为单位执行所有 " 动作 ",这样就大大降低了误差,提升执行效率。

这一套方法叫做 ACT 算法(Action Chunking with Transformers,简称 ACT),它的核心思想是将复杂的决策过程分解成更小、更易管理的 " 行动块 "(action chunks),从而提高决策的效率和质量。

Mobile ALOHA 不仅让大众享受了一场机器人做饭的视觉 " 盛宴 ",更酷的是它让机器人的模仿学习能力又上了一个台阶,它在数据和算法层面的创新,为机器人迎来 "ChatGPT 时刻 " 带来更多可能性。

人形机器人,走到爆发前夜?

2018 年,从波士顿动力依靠机器狗火出圈之后,机器人赛道就开始被更多行业所关注。2022 年 10 月,特斯拉首款人形机器人在 AI Day 上初次亮相,将这个赛道彻底推向高潮。

从此之后,从太平洋的东岸到西岸,各类机器人创业公司层出不穷。

一直以来,机器人赛道都在快速发展,且从来不缺竞争者。

比如特斯拉的人形机器人,2022 年登上 AI Day 的舞台时,它还如一个老人步履蹒跚,需要人扶着;但到了 2023 年,Optimus Gen 2 就已经能够和人类挥手致意,甚至 90 度弯腰屈伸。

1 月底,Magic Lab 人形机器人 " 翻跟斗 " 的视频在网上爆火,这是一家中国的人形机器人公司,因为跳跃、后空翻等场景的优秀表现,被网友称为波士顿动力的挑战者。

人形机器人,也迎来ChatGPT时刻?

▲ Magic Lab 人形机器人

这样的机器人,甚至还会制作咖啡 " 拉花 "。

再往前看,2023 年 8 月,宇树科技发布 H1 人形机器人,它的行走速度超过 1.5m/s,潜在的运动性能可以达到 5m/s 以上。

2023 年 12 月底,国内人形机器人公司优必选在港交所上市,被称为 " 人形机器人第一股 "。按照规划,优必选的人形机器人主要聚焦在工业制造、商用服务和家庭陪伴等三大场景。

而回顾整个 2023 年,机器人的技术进步和产业发展也被市场普遍认为是除了 AI 和商业航天之外,全球范围内最重要的技术发展。

所以尽管如今人形机器人还处在起步阶段,但其中蕴藏的巨大潜力却早已经掩盖不住。

根据 IFR 和中国电子学会数据,参照其他电子产品渗透率超过 20% 后将爆发式增长,2023 — 2030 年,按年均复合增长率 30% 测算,预计到 2030 年,我国人形机器人市场规模有望达约 8700 亿元。

人形机器人,也迎来ChatGPT时刻?

▲图源:中商产业研究院

在这样的背景下,人形机器人及配件相关的投融资活动也相当活跃。

根据中商产业研究院最新统计数据显示," 截至 2023 年 11 月底,中国智能机器人行业投资事件数量达 139 件,投资金额达 844.62 亿元,投资领域包括人形机器人、智能仿生机器人、智能机械手、智能协作机器人等。"

到了 2024 年,虽然时间过去还不到一个月,人形机器人赛道却已经产生了 2 笔大额融资。

先是国内人形机器人研发公司 " 星动纪元 " 宣布获得由联想创投领投,金鼎资本、清控天诚跟投,老股东世纪金源超额追投的超亿元天使轮融资。不久之后,来自挪威的人形机器人初创企业 1X Technologies(简称:1X)也宣布完成了 1 亿美元的 B 轮融资。1X 在 2023 年就曾获得由 OpenAI 创业基金领投的 2350 万美元融资,成为 Open AI 投资的第一家硬件公司。

资本市场对人形机器人青睐有加,因为人形机器人赛道落地不仅会改变生产和生活方式,其众多零部件组建的上下游生态,也会形成一个巨大的配件生态供应链市场。

根据阿里云《中国机器人产业图谱及云上发展研究报告》显示,机器人产业链主要分为上游核心零部件研发与生产、中游本体制造和系统集成, 以及下游各行各业的具体应用等三方面 ,每一个环节都充斥着配件市场的新机遇。

人形机器人,也迎来ChatGPT时刻?

▲图源:行行查研究中心

2023 年 10 月,国家工业和信息化部印发《人形机器人创新发展指导意见》(简称《意见》)。《意见》的第一句话就开宗明义:" 人形机器人集成人工智能、高端制造、新材料等先进技术,有望成为继计算机、智能手机、新能源汽车后的颠覆性产品,将深刻变革人类生产生活方式,重塑全球产业发展格局。"

机器人将带动整个工业制造转型升级、可能成为新的支柱型产业已经成为一个可以预见的未来。

1972 年,早稻田大学加藤实验室发明了世界上第一台人形机器人 WABOT-1,它每走一步需要 45 秒,但它的第一步跨出人类人形机器人历史性的一刻。

52 年后,载着大模型和多样化的技术路线,人形机器人或许也将迎来它的 "ChatGPT 时刻 "。

最受喜欢

波士顿动力 计算机 斯坦福 特斯拉 机器人 热点 本地 社区 美图 视频 直播 资讯

曾被卖出19万美元高价!这台初代iPhone太猛了

曾被卖出19万美元高价!这台初代iPhone太猛了

科技热搜 iphone 智能手机 乔布斯 本初 谷歌 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

苹果首次允许欧盟用户从网站安装应用/雷军称对汽车价格战做好准备/微博上线热搜投诉入口

苹果首次允许欧盟用户从网站安装应用/雷军称对汽车价格战做好准备/微博上线热搜投诉入口

科技热搜 微软 机器人 小米 马斯克 欧盟 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

在游戏里搞政治正确的幕后黑手,快被外国网友冲烂了。

在游戏里搞政治正确的幕后黑手,快被外国网友冲烂了。

科技热搜 战神 steam 自杀小队 安德森 ceo 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

苹果 MacBook 新专利获批:可录制3D 图像/视频、追踪空中手势

苹果 MacBook 新专利获批:可录制3D 图像/视频、追踪空中手势

科技热搜 it之家 macbook 专利 传感器 苹果公司 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

芯片代工营收排行榜公布:台积电独占六成,狂揽近200亿美元

芯片代工营收排行榜公布:台积电独占六成,狂揽近200亿美元

科技热搜 台积电 三星 芯片 高通 半导体 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13