在人工智能领域,具身智能这一分支正逐渐崭露头角。与常规人工智能系统侧重于数据处理和算法优化不同,具身智能更强调机器与环境之间的实时互动与交流,它不仅是“大脑”,更是“身体”的延伸。
对于具身智能终端的具体实例,在最近芯原AI专题技术研讨会上,神顶科技(南京)有限公司的董事长兼CEO袁帝文为我们提供了一系列生动的案例。他提到了工业机器人、人形机器人、自动驾驶车辆、低空飞行器,以及MR/AR(混合现实/增强现实)设备和AGV/AMR(自动导引车/自动移动机器人)等前沿技术。
袁帝文进一步强调,这些具身智能终端的发展离不开大模型和3D空间计算技术的支持。这些技术将推动具身智能在更多领域实现突破,让机器能够更好地理解和适应复杂多变的环境。
国内外科技企业致力于将大模型接入机器人
自从2022年底大模型技术进入大众视野以来,国内外科技企业都在积极推进大模型的技术和应用,而将大模型接入机器人也是各大科技企业、机器人公司重点研究的方向。
早在2023年7月,AI科学家李飞飞带领的团队发布了具身智能最新成果,即大模型接入机器人,把复杂指令转化成具体行动规划,人类可以很随意地用自然语言给机器人下达指令,机器人也无需额外数据和训练。
李飞飞团队将该系统命名为VoxPoser,相比传统方法需要进行额外的预训练,这个方法用大模型指导机器人如何与环境进行交互,直接解决了机器人训练数据稀缺的问题。
可以看到,随着大模型技术的发展,过去一年多时间来,从 OpenAI 到 Google DeepMind,几乎所有掌握人工智能技术的大型科技公司,都在致力于将支持聊天机器人的多功能学习算法接入机器人中。这样做的目的是让机器人具备常识性知识,从而能够处理各种任务。
如有消息称,随着对人工智能机器人投资的升温,OpenAI将重启其机器人业务,目前正在积极招募研究工程师,以重建曾经解散的机器人团队。
特斯拉的人形机器人也是备受关注,6月14日凌晨,特斯拉在美国得克萨斯州总部举行2024年股东大会,马斯克在大会上表示,特斯拉将于2025年开始“限量生产”人形机器人Optimus,并于明年在自有工厂测试类人机器人。他预测,明年特斯拉将拥有“超过1000个,甚至数千个在运行的Optimus机器人”。
近期,国产机器人领域也动作频频,全球首例纯电驱全尺寸人形机器人“天工”首次在北京人形机器人创新中心实现“拟人奔跑”、宇树科技发布瞄准老年人陪护市场的新型人形机器人Unitree G1、工业版人形机器人Walker S进入蔚来总装车间“实训”当起“见习厂工”等。
科大讯飞近日也表示,公司已于2023年全球“1024开发者节”上正式发布了“大模型+具身智能”的人形机器人技术原型。2024年5月31日,公司启动讯飞机器人超脑平台2.0项目,将以视听融合的多模感知交互和基于大模型的机器人大脑,通过软硬件一体的方式构建机器人新交互,将讯飞星火大模型进一步赋能机器人领域。
过去大半年时间,手机和PC大模型迅猛发展,手机和PC通过大语言模型可以提供非常多服务,如智能办公助手、个性化推荐系统、图象与视频处理、健康监测与管理、教育与学习、创意写作与内容创作。袁帝文在日前的大会上谈到,大模型在手机和PC上的发展,其实也有助于机器人大模型的发展。因为机器人本身就是一个终端,它所需要的功能包含了手机和PC的基本功能。
不过,袁帝文认为,机器人大模型的挑战要高于手机和PC。首先是,机器人需要多模态数据处理,使机器人综合利用多种感知信息,全面理解环境和任务需求;其次是自主导航和定位需求,机器人需要自主移动,进行路程规划和障碍物避让;第三是物理空间交互,机器人不仅处理信息,还要能与物理环境交互,执行搬运、组装、清洁等物理任务;第四,实时性要求,机器人执行任务时需要低延迟的控制系统,确保动作的准确性和及时性,特别是在高速移动或精细操作时。
大模型机器人对芯片有更高要求
据袁帝文介绍,机器人部署AI大模型面临3D空间计算、多传感器融合、高实时性的要求。
3D空间计算,即机器人在真实的物理空间中自主导航,进行各种操作,需要精确和高帧率的空间计算能力;多传感器融合,即需要对不同传感器产生的数据,进行空间及时间上的同步和融合;高实时性,即高精度、高实时性的3D空间计算能力软硬件协同优化。这使得机器人对计算资源、内存和带宽、功耗要求较高。计算资源方面:机器人大模型通常包含数十亿以上的参数,需要具备强大算力来实时处理这些模型的推理和计算;内存和带宽方面:由于模型参数量大,需要大量的内存来存储和访问模型参数和中间计算结果;功耗方面:对于移动机器人来说,电池寿面是一个关键问题,芯片需要平衡计算和功耗,保证电池供电。
机器人大模型端侧芯片的关键技术之一是高实时性NPU。一是需要有更高算力· 多核并行,以提升多模型运行的并发性能,提升运算的吞吐量;二是高效Transforme运算,提升Transformer的运算效率和利用率,提升大模型的实时性能;三是低比特量化,降低内存需求、降低存储需求、降低带宽需求、提升运行的实时性;四是权重压缩,提升带宽利用率、降低系统带宽需求、降低数据搬运的延时、提升模型运行的实时性。
在探讨机器人大模型端侧芯片的关键技术时,3D空间计算处理能力显得尤为关键。其中,两大核心技术引人注目。首先,是深度计算引擎这一空间计算专用处理单元。它不仅在计算算力上远超传统嵌入式CPU,更配备了最先进的3D感知处理器,能够精准提供工业级别的三维点云信息。此外,该引擎还具备类人化融合数据信息的能力,赋予了机器人同步多维度感知的卓越性能。其次,感知融合引擎作为另一核心处理单元,其重要性不容忽视。它能够通过多个3D传感器的协同工作,融合出质量更高、细节更为丰富的三维世界信息。特别值得一提的是,该引擎拥有独特的时间融合单元,确保多个传感器之间的感知时刻偏差小于0.1ms,从而显著提升了精细多传感器感知和控制的精度。由于没有任何一个传感器能在所有场景下都适用,因此这种多传感器融合技术显得尤为重要。
近日,“物理智能”和“物理AI”成为了热门话题。Meta的人工智能专家曾指出,实现真正智能的终极目标是物理智能。机器人,这一超越传统手机和PC的先进设备,正引领着人工智能从虚拟的数字世界迈向真实的物理世界,为智能科技的进一步发展注入新的动力。
声明:本站所使用的图片文字等素材均来源于互联网共享平台,并不代表本站观点及立场,如有侵权或异议请及时联系我们删除。