figure机器人技术架构的演进初探——Helix人形机器人控制的革新

news/2025/2/24 19:11:37

一、前言

近期具身智能机器人公司figure提出了人形机器人端到端的控制方案Helix,大小模型结合架构实现了慢速决策规划+快速反馈控制的结合,类似于人类的大闹+小脑的结构。无疑是人形机器人领域的一项重大突破。作为一个通用的视觉-语言-动作(VLA)模型,Helix 首次实现了对人形机器人整个上身的高速率连续控制,并具备多机器人协作、自然语言理解和强大的泛化能力。下面,我们尝试分析 Helix 的技术路线和特点,并与 Figure AI 之前的架构进行比较。

二、Helix 的技术路线与特点

(1)“System 1, System 2”架构

Helix 采用了独特的“System 1, System 2”架构,其中 System 2(S2)是一个基于互联网预训练的视觉语言模型(VLM),以7-9 Hz 的频率运行,负责场景理解和语言理解;System 1(S1)则是一个快速反应的视觉运动策略,将 S2 生成的潜在语义表示以 200 Hz 的频率转换为精确的连续机器人动作。这种解耦架构使得每个系统都能在其最佳时间尺度上运行,S2 可以“慢思考”高层次目标,而 S1 可以“快思考”以实时执行和调整动作。
在这里插入图片描述

(2)全上身控制:

Helix 能够控制人形机器人的整个上身,包括手腕、躯干、头部和手指,实现高速率(200 Hz)的连续控制。这使得机器人能够进行精细的动作协调,如在抓取物品时调整手指姿态,同时移动头部和躯干以获得更好的视野和操作空间。

(3)多机器人协作:

Helix 支持多个机器人同时运行同一套神经网络权重,实现协作完成任务。例如,两个 Figure 机器人可以共同完成整理杂货的任务,它们通过自然语言指令进行协调,如“把饼干袋递给右边的机器人”或“从左边的机器人那里接过饼干袋并放在打开的抽屉里”。

(4)自然语言理解和执行:

Helix 能够基于自然语言指令完成各种任务,如拿起从未见过的物品、操作抽屉或冰箱等。当被要求“拿起沙漠中的物品”时,Helix 会识别出玩具仙人掌,选择最近的手,并执行精确的运动指令将其牢牢抓住。

(5)强大的泛化能力:

Helix 在训练中使用了约 500 小时的高质量监督数据,能够处理数千种形状、大小和材质各异的物品,表现出强大的泛化能力。

(6)商业部署能力:

Helix 完全在低功耗嵌入式 GPU 上运行,适合大规模商业化应用。

三、Helix 与先前架构的比较

(1)技术路线:

先前的架构更侧重于模块化设计,依赖于多个独立的组件来完成不同的任务,如语音识别、文本生成、视觉处理和运动控制等。而 Helix 则采用了端到端的 VLA 模型,将感知、语言理解和控制紧密结合在一起,通过一个统一的神经网络来学习所有行为。
在这里插入图片描述

(2)架构特点:

先前的架构中,各个组件之间的交互和协调较为复杂,需要大量的数据和计算资源来实现良好的性能。而 Helix 的“System 1, System 2”架构通过解耦 S1 和 S2,使得每个系统都能在其最佳时间尺度上运行,从而提高了系统的效率和性能。

(3)功能实现:

先前的架构在功能实现上相对较为单一,如只能完成特定的语音识别或视觉处理任务。而 Helix 则能够实现多种复杂的功能,如全上身控制、多机器人协作和自然语言理解等。

(4)泛化能力:

先前的架构在泛化能力上相对较弱,需要大量的任务特定数据和微调来实现良好的性能。而 Helix 则能够通过自然语言指令快速适应新的任务和环境,表现出强大的泛化能力。

在这里插入图片描述

翻译:
人形机器人新突破
家庭环境是机器人技术面临的最大挑战。与受控的工业环境不同,家庭中充斥着无数物品——易碎的玻璃器皿、皱巴巴的衣物、散落的玩具——每种物品都具有不可预测的形状、大小、颜色和质地。为了使机器人在家庭中发挥实际作用,它们需要能够按需生成智能的新行为,尤其是针对它们从未见过的物品。
在没有重大突破的情况下,当前的机器人技术无法扩展到家庭环境。目前,教授机器人哪怕是一种新行为都需要付出巨大的人力成本:要么是数小时的博士级别专家手动编程,要么是成千上万次的演示。考虑到家庭问题的复杂性,这两种方法都过于昂贵。然而,人工智能的其他领域已经掌握了这种即时泛化的能力。如果我们能够将视觉语言模型(VLMs)中捕获的丰富语义知识直接转化为机器人的动作,会怎样?这种新能力将从根本上改变机器人技术的发展轨迹(见图1)。突然之间,曾经需要数百次演示才能获得的新技能,现在只需用自然语言与机器人交流即可瞬间获得。关键问题变成了:我们如何从VLMs中提取所有这些常识知识,并将其转化为可泛化的机器人控制?我们开发Helix正是为了弥合这一差距。

(5)商业部署:

先前的架构在商业部署上面临一些挑战,如高功耗和高成本等。而 Helix 则完全在低功耗嵌入式 GPU 上运行,具有良好的商业部署潜力。

总结

Helix 的推出,标志着人形机器人技术进入了一个新的时代。其独特的“System 1, System 2”架构、全上身控制、多机器人协作、自然语言理解和强大的泛化能力,使其在人形机器人领域具有巨大的潜力。与 Figure AI 之前的架构相比,Helix 在技术路线、架构特点、功能实现、泛化能力和商业部署等方面都具有显著的优势。未来,随着 Helix 的不断发展和完善,作为机器人的从业者和研究者,不得不说,Helix 的架构或可能成为未来具身智能控制的技术方向。

-----------------本篇完------------------

PS.扩展阅读

————————————————————————————————————————

对于python机器人编程感兴趣的小伙伴,可以进入如下链接阅读相关咨询

ps1.六自由度机器人相关文章资源

(1) 对六自由度机械臂的运动控制及python实现(附源码)
在这里插入图片描述

(2) N轴机械臂的MDH正向建模,及python算法
在这里插入图片描述

ps2.四轴机器相关文章资源

(1) 文章:python机器人编程——用python实现一个写字机器人
在这里插入图片描述

在这里插入图片描述

(2)python机器人实战——0到1创建一个自动是色块机器人项目-CSDN直播

(3)博文《我从0开始搭建了一个色块自动抓取机器人,并实现了大模型的接入和语音控制-(上基础篇)》的vrep基础环境
(3)博文《我从0开始搭建了一个色块自动抓取机器人,并实现了大模型的接入和语音控制-(上基础篇)》的vrep基础环境
(4)实现了语音输入+大模型指令解析+机器视觉+机械臂流程打通
在这里插入图片描述
在这里插入图片描述

ps3.移动小车相关文章资源

(1)python做了一个极简的栅格地图行走机器人,到底能干啥?[第五弹]——解锁蒙特卡洛定位功能-CSDN博客
(2) 对应python资源:源码地址
在这里插入图片描述
在这里插入图片描述

(3)python机器人编程——差速AGV机器、基于视觉和预测控制的循迹、自动行驶(上篇)_agv编程-CSDN博客
(4)python机器人编程——差速AGV机器、基于视觉和预测控制的循迹、自动行驶(下篇)_agv路线规划原则python-CSDN博客
对应python及仿真环境资源:源码链接
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

ps3.wifi小车控制相关文章资源

web端配套资源源代码已经上传(竖屏版),下载地址
仿真配套资源已经上传:下载地址
web端配套资源源代码已经上传(横屏版),下载地址


http://www.niftyadmin.cn/n/5864736.html

相关文章

大白话React第三章高级应用阶段

大白话React第三章高级应用阶段 1. 学习 React 路由 在单页应用里,页面不会像传统网页那样每次切换都刷新整个页面,React 路由就像是一个智能的导航员,能让你在一个页面里轻松切换不同的“场景”,就像在一个大房子里从客厅走到卧…

UE5实现角色二段跳

1.二段跳 首先如果不想使用UE中增强输入功能,可以在SetupPlayerInputComponent函数中绑定对应的操作,具体可以自行查找。如果使用增强输入,可以通过创建一个UE自带的第三人称模板C项目学习,假设当前项目是创建自UE第三人称模板项目…

【部署优化篇十三】深度解析《DeepSeek API网关:Kong+Nginx配置指南》——从原理到实战的超详细手册

一、为什么需要API网关?从单体服务到微服务的必然选择 1.1 单体服务的痛点 想象一下早期的淘宝——所有功能(用户中心、商品管理、订单系统)都打包在一个巨型服务里。这样的架构存在三大致命问题: 单点故障:一旦服务崩溃,整个系统瘫痪扩展困难:每次发布都需要全量部署…

git,bash - 从一个远端git库只下载一个文件的方法

文章目录 git,bash - 从一个远端git库只下载一个文件的方法概述笔记写一个bash脚本来自动下载get_github_raw_file_from_url.shreanme_file.shfind_key_value.sh执行命令 END git,bash - 从一个远端git库只下载一个文件的方法 概述 github上有很多大佬上传了电子书库&#xf…

每天一个Flutter开发小项目 (2) : 构建实用的待办事项列表应用

引言 欢迎回到 每天一个Flutter开发小项目 系列博客!在上一篇博客中,我们一起构建了简单的计数器应用,初步体验了 Flutter 的魅力。今天,我们将更进一步,构建一个日常生活中非常实用的应用——待办事项列表。 随着生活节奏的加快,待办事项列表应用成为了我们管理时间和…

基于YOLO11深度学习的运动鞋品牌检测与识别系统【python源码+Pyqt5界面+数据集+训练代码】

《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【…

P9631 [ICPC 2020 Nanjing R] Just Another Game of Stones Solution

Description 给定序列 a ( a 1 , a 2 , ⋯ , a n ) a(a_1,a_2,\cdots,a_n) a(a1​,a2​,⋯,an​),有 m m m 个操作分两种: chmax ⁡ ( l , r , k ) \operatorname{chmax}(l,r,k) chmax(l,r,k):对每个 i ∈ [ l , r ] i \in [l,r] i∈[l,…

【Nacos】从零开始启动Nacos服务(windows/linux)

文章目录 前言前置条件官方网址一、Nacos下载1.1 选择Nacos版本1.2 下载 二、解压2.1 解压到某个文件夹 三、 启动3.1 方式一:直接使用命令启动3.1.1 进入bin文件夹3.1.2 进入命令行工具3.1.3 执行命令 3.2 方式二:修改配置文件后启动3.2.1 修改启动脚本…