官网最新版telegram下载网站在哪里

  一台人形机器人在人行道、混凝土、沥青、广场和沙路上“散步”,这不是科幻电影的中文版的最新telegram下载的网址是多少场景,而是已经发生在旧金山街头的真实事件。

  这一人形机器人项目也引起了Sora团队的注意。

  “不可思议的成果!”Sora负责人之一Bill Peebles在 X 转发了这条内容,难掩惊讶。另一位核心作者Tim Brooks也评论道:“Ilija Radosavovic的惊人成果把AI带入了真实世界。”

  Ilija Radosavovic(伊利亚·拉多萨沃维奇)是该人形机器人项目的负责人之一,他是加州大学伯克利分校博士生,曾在Meta的AI实验室FAIR做研究工程师。telegram官方最新中文版下载的网站哪里有

  这篇论文名为《Humanoid Locomotion as Next Token Prediction》。Ilija Radosavovic表示,论文的核心思想,就是把OpenAI训练ChatGPT时所用到的“预测下一个token”的思路,用在人形机器人的运动控制中。

  官方最新中文版的telegram下载入口哪里有ChatGPT为人形机器人带来惊喜,但光有“灵魂”还不够

  这被称为“自回归生成式”路线,最大的特色是可以根据“Scaling Law”——扩大模型的参数、数据、算力来提升模型的效果,也被称为“暴力美学”。不过,对于“暴力美学”的前景,目前在业内存在一定的争议。

  目前来看,Scaling Law已经先后突破了文本生成和视频生成,接下来又会突破人形机器人的运动控制吗?
最新的官方telegram下载的入口在哪里
  “暴力美学”解锁人形机器人?

  这篇论文中,作者提出的核心问题是:

  过去十年,深度学习浪潮下,大型神经网络已经在互联网多样化的数据集上有了大量训练成果,我们能否以类似的方式来学习强化大的感官和运动表示模型?

  回溯机器人的发展历程,传统机器人的运动高度依赖于人工输入准确的预测接触点和执行器方向等信息。“拿杯子”这个动作对人类而言看似简单,但对机器人而言却是一个“大工程”。人类需要拆解动作,再告诉机器人每一个动作的具体细节,像这个动作的起点在哪里、手臂要如何移动等。

  这种方法带来的问题是,机器人只能在人类规定的路径中较好地运动和控制肢体动作,但跳出模拟世界后,机器人在真实世界就手足无措了,这个问题可简单归类到学术领域所讨论的“泛化性”较差,不够通用等问题。

  不只机器人,在人工智能符号主义学派的研究中,“泛化性”也是一个老大难的问题。而OpenAI发布的ChatGPT之所以惊艳,有一个核心原因就是其用暴力美学——叠加大量数据、算力、参数量,就让模型对新事物表现出了泛化性极佳的“智能涌现”。

  如今,Ilija Radosavovic团队试图借鉴OpenAI在语言领域的做法,将现实世界中的仿人机器人控制视为一个“下一个token预测”问题,类似于语言中预测下一个单词,来实现人形机器人的运动控制。

  该模型是一个通过自回归预测训练的causal transformer(因果转换器)。

  由于训练数据的多模态特性,该研究以模态对齐的方式进行预测,对于每个输token,模型能够预测相同模态的下一个token。这个方法让模型更加通用,能够利用缺失模态的数据,比如没有动作的视频轨迹。

  在视频中,一个仿人形的双足机器人已经实现“零样本学习”,正在旧金山“闲逛”。

  该模型即使只在27小时的行走数据上训练,也能转移到现实世界,并且能够泛化到训练期间未见过的命令,比如向后行走。这些发现为通过生成模型学习具有挑战性的现实世界控制任务提供了一个有希望的路径。

  仿人运动作为下一个标记预测

  该研究将现实世界中的仿人控制视为一个大型传感器运动轨迹数据建模问题。

  与语言类似,研究人员训练了一个通用的Transformer模型来自回归地预测移位的输入序列。与语言不同,机器人数据是高维的,包含多个感官模态和动作。

  研究人员将输入轨迹token化,并训练一个causal transformer(因果转换器)模型来预测移位的标记(shifted token)。

  重要的是,模型能够预测完整的输入序列,包括感官和动作标记。该团队是在建模联合数据分布,而不是条件动作分布。

  ChatGPT为人形机器人带来惊喜,但光有“灵魂”还不够

  一个通用的缺失数据处理框架

  该研究假设每个轨迹都是观察和动作的序列,论文展示了该模型如何泛化到具有缺失模态的序列,比如从没有动作的人类视频中提取的轨迹。

  假设已经获取一个没有动作的观察轨迹,该团队的关键洞察是,可以将没有动作的轨迹视为带有动作遮蔽的常规轨迹。这个轨迹具有与常规动作轨迹相同的格式,因此可以统一处理。该方法忽略了对应于输入遮蔽部分的预测的损失。

  构建轨迹数据集

  该团队构建了一个轨迹数据集用于训练模型,有四大数据来源:先前的神经网络策略,基于模型的控制器,人类运动捕捉,以及YouTube上的人类视频。

  不同来源的数据会提供不同维度的信息:

  神经网络策略的轨迹提供了包括动作在内的完整信息;

  基于模型的控制器的轨迹包含了来自相同机器人形态的观察,但没有动作;

  人类运动捕捉的轨迹包含不同的形态,没有动作;

  最后,从YouTube上的人类视频中恢复的轨迹可以被视为大规模但嘈杂的运动捕捉。

  按照上述策略训练的机器人已经可以行走在不同的表面上,包括人行道、混凝土、沥青、广场和沙土路。

  人形机器人正成为多方竞逐未来产业的新赛道

  亚马逊创始人贝索斯、英伟达和其他大型科技公司纷纷宣布投资人形机器人初创企业,积极探索将“人形机器人”作为AI技术落地的新机遇。其瞄准的标的公司为创立时间仅仅两年的Figure,目前该公司正在进行一轮约为 6.75 亿美元的融资。Figure AI 成立于 2022 年,去年 5 月完成 Parkway Venture Capital 领投的 7000 万美元融资,两个月后英特尔投资 900 万美元,最近的融资显示,无论是硅谷还是华尔街,都看好这家初创投身的类人机器人领域。

  除了 Figure AI,OpenAI 还支持了一家挪威类人机器人公司 1X Technologies。双方 2022 年达成合作,使用 AI 模型为机器人添加智能。去年 3 月,1X Technologies 获得了由 OpenAI 创业基金领投的 2350 万美元融资。今年年初,1X Technologies 完成超 1 亿美元的 B 轮融资,EQT Ventures、三星 NEXT、Nistad 集团、Sandwater、Skagerak Capital 等参投。今年2月,谷歌DeepMind联合斯坦福华人团队打造的Mobile ALOHA 2.0版本亮相;2月24日,特斯拉通过社交媒体展示了其正在研发的Optimus人形机器人的一段新视频,在视频中,该机器人的行走步伐更稳健,动作也更加流畅。

  国内方面,小米、傅利叶、宇树、智元、开普勒、追觅等厂商相继推出人形机器人产品。而人形机器人领域的另一个风云人物马斯克,则在当地时间2月24日分享了特斯拉人形机器人Optimus(擎天柱)的最新视频。视频中Optimus人形机器人展现了流畅的运动能力。Optimus机器人工程师Milan Kovac介绍,这是Optimus有史以来最快的步态,速度约为 0.6 米/秒,与12月发布的视频相比,速度提高了30%。今年以来,特斯拉已经于1月16日、1月31日、2月24日三次发布Optimus的视频,性能持续迭代升级。据国际机器人协会预测,2021年至2030年,全球人形机器人市场规模年复合增长率将高达71%。中国电子学会数据显示,到2030年,我国人形机器人市场规模有望达约8700亿元。

  AI大模型激起人形机器人更多希望

  但行业还有难点待攻克

  随着谷歌、英伟达等公司对大模型+机器人探索的深入,上述积极影响也得到了证实。2022 年 12 月,谷歌发布了RT-1模型。这是一个基于机器人数据的端到端模型,输入端是一小段图像序列和用文本描述的任务,输出端是动作指令,包括7个维度的手臂动作指令、3个维度的基础移动指令和1个维度的状态切换指令。

  ChatGPT为人形机器人带来惊喜,但光有“灵魂”还不够

  研究人员让机器人执行了超过 700 项任务,结果显示:在之前见过的场景、之前未见过的场景、被干扰场景、背景更换场景,搭载 RT-1 模型的机器人都展现出了更高的成功率。

  值得一提的是,这是机器人首次通过庞大的、多样化的、任务无关的数据,展现出泛化性,执行了一些未曾见过的任务。

  去年7月,谷歌发布了RT-2,这是一个视觉—语言—动作模型。在这个模型里,谷歌将参数量从35M提高到55B。研究人员对RT-2模型进行了和RT-1一样的测试。结果显示,RT-2的理解能力、推理能力、针对未知场景的泛化能力都显著优于RT-1模型。

  可以说,基于大模型的AI技术让人形机器人通用化变成了可能。而人形机器人作为一个硬件载体,也让生成式AI距离AGI的目标越来越近了。

  尽管引入大模型后拥有了“常识”,并带来了一定的泛化能力,解决了自然语言理解和任务规划的两大难题,也有越来越多公司发布人形机器人,似乎这一切离我们越来越近了中文最新版telegram下载的网址在哪呢。但我们必须清醒认识到:人形机器人距离真正落地仍然有很长的路要走。

  大模型对人形机器人智能化的突破固然可喜,但并不解决机器人硬件层面的难题。人形机器人的操作能力和移动能力需要借助硬件本体的硬件和算法来实现,但在过去50年的人形机器人研究历程中,这个难关一直没有被攻克。最新的官方的telegram的下载的入口在哪里

  比如,扫地机器人能通过底盘滑动前行,四足机器狗可以靠四肢保持稳定和平衡,但人形机器人只有两条腿,行动时只能依赖一条腿保证整个身体的稳定和平衡。大模型对物理运动能力的帮助是有限的。

  对于人形机器人公司来说,另一大挑战是数据。人形机器人的模型训练需要大量决策数据做支撑,如果数据不够,输出的结果会容易漂移,成功率也会受影响。

  目前,遥操作数据是各家机器人收集数据的重要方法,操作逻辑是先学习和分解人是怎么做到的,然后对应机器人要怎么做到。由于采用的是真实世界数据,数据质量最高,但采集成本也很高。比如,谷歌用于训练 RT-1 和 RT-2 的机器人数据是历时超过17个月在13个机器人上收集而来。当年,OpenAI解散了旗下的机器人团队,获取收集难度大就是一个重要原因。

  这也是大模型企业都在布局人形机器人的原因。借助机器人的硬件本体,AI可以更多的接触外界信息,这些数据也有反哺AI算法的可能性。比如,特斯拉的自动驾驶汽车在高速路上积累的数据,哺育了 FSD 的算法系统,提供了最基本的数据基础。

  尽管有着种种问题,但还是无法阻挡越来越多大模型公司冲入人形机器人赛道。很多人把去年称为,人形机器人真正产业化的元年。但已经少有人记得,2016年那波人形机器人热潮,潮水褪去,最后活下来的所谓人形机器人公司寥寥无几。

  当一项超出想象的新技术开始真正走向商业化,面世之初的震撼会很快消退。参与公司需要一边接受商业规律的检验、一边推动技术走向成熟。个人电脑、互联网行业都经受住这样的考验,进而重塑了整个世界。人形机器人曾几度突围、几度停滞,现在借着大模型的风口,新一批公司又到了这个阶段。

  文章来源: 甲子光年,交易实践者,读懂财经研究所