2025世界机器人大会8月8日至12日在北京经济技术开发区北人亦创国际
国际机器人联合会技术委员会主席亚历山大·维尔以《工业机器人拥抱数字孪生与
大家好!今天我主要讲讲工业机器人如何拥抱数字孪生和AI。这个话题可能有些误导性,因为人们往往对“人形机器人”和“AI”感到非常兴奋,但工业机器人领域的视角与AI研究者或公众的期望可能有所不同。我的分享将从生产工程学的角度出发,首先介绍整体议程,然后深入探讨未来有应用前景的AI技术、
什么在驱动着机器人的发展呢?是一个实体的生成型AI,各种各样的AI对于单一目的的人形机器人都很重要,为什么会这样?我给大家说一下人形机器人的优势和劣势。
在销售宣传中,人们常说人形机器人可以
有人认为人形机器人会因为大众市场的普及而变得更便宜。这在长期来看是可能的,但短期内价格并不会大幅下降。此外,人形机器人具备快速人机互换的能力,为制造业提供了更高的灵活性,尤其是在劳动力短缺的背景下,人形机器人有望成为重要的补充力量。
据称,制造业中近50%的人工劳动力可以被人形机器人取代。目前,一些制造商已经推出双臂机器人,但人形机器人在实现双臂移动方面仍面临挑战。例如,富士康等公司更倾向于使用单臂机器人来替代生产线工人,这在灵活性和编程难度之间取得了较好的平衡。
当前的人形机器人仍不具备协作能力,这是其在工业应用中的一大限制。此外,真正多功能的人形机器人仍处于早期研发阶段,尚需大量投入,尤其是在视觉、语言和动作模型(VLA)方面。
目前行业对人形机器人的期望过于乐观,投资者、客户和政界人士对技术进展的信任面临风险。我们不应忘记宏大的愿景,但愿景不能建立在虚假承诺之上。技术发展不应追求短期记录的突破,而应注重交付可持续、可靠的结果。
有哪些需要进一步发展呢?如安全认证、视觉与触觉技术、灵巧手抓取的技术升级,协作场景下的降速运行会降低生产效率的问题。还有一点就是工业机器人必须具备长期技术可用性,不能在24小时连续工作后出现故障,这也是人形机器人亟需改进的方向之一。
最后,模仿人是否真的有意义呢?许多机器人设计模仿人类,试图突破人体极限,如减少弯腰或高空作业。然而,这种模仿也带来了双重系统的局限性,导致整体性能受限。从生产工程学角度来看,具备轮子的机器人可能更可靠,能够完成99%的任务。
AI在机器人领域的难点主要集中在视觉、语言和动作模型(VLA)的融合上。这类模型基于大型语言模型,能够处理文本和图像,并将语言与图像结合,生成相应的动作指令。要研究语言,仅仅进行词源嵌入是远远不够的,还需要引入定位嵌入和位置嵌入。也就是说,我们需要能够区分“狗咬人”和“人咬狗”之间的差异。由于传统的词源分析往往是独立处理每个词语,因此必须进一步处理词语之间的关系,尤其是语序和位置所带来的语义变化。此外,还需要引入多头注意力机制,以更好地理解整个句子的意义。通过这一机制,我们可以识别出句子中各个词语之间的对应关系,明确某个词语具体指向句子的哪一部分,从而更准确地把握整体语义。
因此,像ChatGPT这样的系统拥有数十亿个参数,通过嵌入和分析机制,能够生成一个完整的句子,并相应地预测下一个可能出现的词语。在处理视觉影像时,原理也是类似的:系统通过一个视觉编码器来“看”图像,并将图像划分为多个区块,这些区块的作用类似于句子中的词语。基于RGB值对图像进行分割后,系统会对每个图像块进行嵌入处理。图像块位于图片的上端还是下端并不重要,关键在于判断图像中是一个物体还是多个物体。这一过程涉及多头注意力机制,同时也需要额外数十亿的参数来对视觉信息进行解码。
我们目前已经拥有了视觉语言模型,一些机器人也已经集成了这类技术。例如,你可以问ChatGPT“计算机在哪里?”它能够指出计算机的位置。有一个案例展示了AI对图像的理解能力:如果问一个孩子“这个展厅里有多少把椅子”,由于展厅中椅子种类繁多、摆放密集,这个问题对孩子来说并不容易回答。
如果我们把同样的问题问给ChatGPT,它会识别出13把椅子。然而,它无法识别出其中一把是椅子的模型,或者某些椅子的阴影被误认为是实际的椅子。此外,还有一把椅子的镜像反射也被计入了总数,导致了误判。如果你继续询问:“有没有未组装的椅子?”它也能识别出一把尚未组装完成的椅子。通过这些例子我们可以看到,要让系统真正理解语言和图像之间的关系,需要一个能够将这些信息整合起来的模型,并最终输出相应的操作指令。例如,它需要告诉我们应该将机器人的工具中心点(TCP)调整多少才能做出正确响应。在我们的实验中,通过ER7机器人控制抓取器将其打开至50%的程度,来模拟具体操作。为了训练这样的系统,我们需要数百万张带有标签的图像,比如苹果的图片,以便模型能够在
为了让机器人掌握特定任务,需要有成千上万人投入数千小时来演示这些工作,以此向系统展示应有的操作方式。随后,系统可以对比机器人所学到的动作与人类示范之间的差异,并据此计算差距,进而
VLA模型需要高达97万组
对于系统开发者而言,当前面临的主要挑战之一是模型的上下文理解能力仍然非常有限,同时存在明显的感知缺陷,使得执行多步骤任务变得十分困难。目前系统对感知信息的处理尚不完善,特别是在支持额外传感器
此外,在动作执行过程中也常常会出现失败的情况,尤其是在面对未知或未曾见过的物体时,视觉系统容易产生混淆,从而影响任务的完成效果。因此,必须进一步提升系统的成功率,才能真正满足工业应用的需求。同时,语言理解能力仍存在明显缺陷。如果机器人无法准确理解人类下达的指令,就无法有效执行相应的任务。还有一个关键难点在于反馈机制的缺失,即系统缺乏对自身操作结果的评估与修正能力,这对实际应用来说是一个较大的挑战。
我们来看大语言模型(LLM),它可以从多达23.8亿个网页中学习,这些
我们必须使用大量的
昨天英伟达的同事讲得非常好。他提到,我们可以利用一些人类的示范操作,生成系统化的演示
从真实的工程实践到虚拟工程再到实际控制的过程中,很多人并没有意识到这三者之间存在显著差异。而虚拟指令使非常有帮助的,现场工作时间最多可以减少约75%。由于现场工作时间的缩短,相应的停机时间也随之减少。
虚拟指令和调试技术可以用于VC的数字孪生,可以保护机器,不会产生成本的损失,可以安全
另一种方式是利用AI来优化数字孪生模型,使其运行速度超过原始模型,无论采用的是现实模型还是其他类型的建模方法。
最后一个应用案例来自饮料行业。从我们研究院的实践来看,我们专门开发了基于大语言模型和视觉模型的系统,其目标非常明确:让机器人能够从箱子中抓取多个小包装
此外,我们还可以通过大型语言模型与该系统进行交互。例如,可以发出指令“把泡泡膜取掉”,系统便会做出相应的回应。也可以询问“箱子里有什么”之类的指令,系统中的AI助手能够反复核查箱内物品的内容、标签信息以及实际放置的物品,确保信息一致。这其实是一套非常精细、高度智能化的系统,专为
在总结机器人发展的整体趋势时,我想重点强调几个值得关注的方向:一是人形机器人与工业机器人的演进路径与技术特点;二是视觉-语言-动作模型(VLA)的基本原理及其当前存在的局限性;三是数字孪生技术如何应用于虚拟仿真与实际系统训练。以上就是我今天的分享内容。
高招云直播
