上海人工智能研究院实现3D重建和空间推理AI助手

这项开创性的研究由上海人工智能研究院与加州大学洛杉矶分校、上海交通大学、复旦大学、浙江大学、中国科学技术大学、香港大学和香港中文大学合作完成,并于 2025 年 11 月发表,文章编号为 arXiv:2511.21688v1。研究团队开发了一种名为G?VLM的创新人工智能系统。这是世界上第一个能够同时执行3D空间重建和高级空间推理的统一视觉语言模型。有兴趣了解更多信息的读者可以通过文章编号查看完整的研究报告。当谈到人类视觉系统的奇迹时,我们的大脑实际上是通过两组完全不同但密切协调的视觉通道来运作的。第一组称为 vito ventral,负责识别“这是什么?”当你看到一只猫时,系统会告诉你“这是一只猫”。这第二组称为背侧通路,处理“哪里”的问题。显示猫离您有多远以及它在房间中的位置。这就像我们的大脑里住着两位专家。一个是“物体识别专家”,另一个是“空间定位专家”。它们共同努力使我们能够充分理解和驾驭这个三维世界。然而,目前的AI视觉系统似乎有一个不完整的大脑,只有“识别专家”,却缺少“定位专家”。它们可以识别图像中的不同物体,甚至可以与人类进行对话,但在空间理解方面它们却表现得很愚蠢。他们无法准确判断物体之间的距离关系,无法理解空间排列的复杂性,更不用说进行空间推理。这就像一个人可以认出所有的家具,但不知道哪张沙发或咖啡桌最近,也不知道如何从客厅到厨房。的r研究团队发现,这个问题的根本原因是现有AI系统的学习方式过于“扁平化”。他们就像永远生活在二维世界中的生物。他们只能从大量的平面照片和文字描述中学习,却从未真正体验过三维空间的深度和立体性。正如从未离开过平坦领域的居民无法理解立体几何一样。当然,这些人工智能系统无法获得真正的空间智能。基于这一想法,研究团队决定创建一个创新的人工智能系统G?VLM,它模仿人脑的双向视觉系统。hand,既是“几何感知专家”又是“语义感知专家”。这就像给人工智能配备了真正的眼睛,让它不仅能够理解世界,还能感知空间。 1. 两位专家合作的令人惊叹的建筑。 G?VLM的核心设计灵感来自于视觉处理人脑的机制。研究团队巧妙地构建了两位专家的协作体系。该系统就像一个高效的建筑工作室,有两名专业人员密切合作,各司其职。几何识别专家就像精密测量员,他们的工作是从二维照片中“看到”三维世界的几何形状。如果你给它一张照片,它会准确地告诉你现实世界照片中每个像素的三维坐标,就像用 X 射线视觉透过飞机看一样。三维。更神奇的是,它还能计算出拍照时相机的准确位置和角度,仿佛可以时光倒流,回到拍摄地点。语义识别专家类似于专家翻译,负责理解图像内容并与人类保持自然对话。您可以识别图像中的物体,理解场景的含义e,并回答有关图像内容的各种问题。然而,与传统的视觉语言模型不同,这位专家并不是单独工作,而是始终与几何专家保持密切的信息交流。两位专家以特别聪明的方式进行合作。他们通过一种名为“共享自我照顾”的机制进行交流,可以随时互相询问问题并共享信息,就像两个人在同一件事上工作一样。sma 办公室。几何专家发现的空间结构信息被实时传输给语义专家,使后者能够更准确地理解空间关系并做出推理。同样,语义专家对场景内容的理解反馈给几何专家,使三维重建更加准确。简单的不同模块与以往结合G?VLM双专家的系统相比,真正实现了集成。它们保持着有机的相互作用在整个处理过程中进行协作,而不是独立操作并简单地汇集结果。每个动作都很协调,就像一对舞伴配合得很好。这种设计的另一个很大的优点是它的可扩展性。该系统不需要昂贵的3D标注数据,可以直接从大量常规照片和视频中学习知识3D几何实体,从而利用互联网上大量的多视角图像和视频资源进行训练。这就像让AI在三维虚拟世界中自由探索和学习,逐渐掌握空间感知的奥秘。 2. 循序渐进的学习策略 G?VLM 的训练过程就像是通过精心设计的两步学习策略来训练孩子逐渐掌握一项复杂的技能。这种方法使系统能够稳定地构建一个完整的能力系统,从基本的几何意识到高级的空间领域奥宁。第一阶段就像孩子第一次学习走路一样。研究人员首先要求几何识别专家关注最基本、最重要的技能:从二维图像中识别三维几何结构。在这个阶段,语义识别专家暂时“休息”,不改变训练前的状态,类似于获得语言技能的助手在场边平静等待。几何专家在这个阶段接受“魔鬼训练”。研究团队组织了一个包含大量3D场景数据的训练场,涵盖从室内房间到室外城市景观等多种环境。这些数据就像一本立体几何教科书。每一页都包含空间中每个点的确切位置、相机拍摄角度、表面法向量等详细信息。几何专家需要学习三项基本技能。首先是点云的重建。就像一个s雕刻师需要为了能够从一块石头上看到最终的形状,平面图像必须能够准确预测三维空间中每个像素的位置。第二个是相机姿态估计。这相当于能够猜测出摄影师当时站在哪里,看向哪个方向,以什么角度拍摄。 。最后,还有表面法线的估计。这涉及精确确定物体表面的方向,例如能够检测每个表面是朝上、朝下还是其他方向。为了保证学习效果,研究团队设计了综合损失函数,利用多种评价标准综合评价学生的掌握程度。这种能力要求几何专家不仅能够精确地重建3D点云,而且能够在相机位姿的测量、成像和表面法线的预测方面实现高精度。钍经过如此严格的训练,几何专家逐渐获得了敏锐的空间意识。第二阶段就像教一个已经会走路的孩子跑和跳。在这个阶段,研究团队解冻了语义识别专家,让两位专家开始了真正的合作。目前的训练目标是学习使用几何信息进行高级空间推理和交互,而不是简单的几何重建。在协作训练中,系统面临更困难的挑战,例如空间推理问题,例如“你坐在墙上一幅画下的椅子上,书架相对于你在哪里?”为了回答这些问题,系统不仅必须识别图像中的物体,还要准确理解它们的空间关系,并能够从不同的角度进行推理。研究小组发现了一个有趣的现象。提高几何专家的性能意味着整体系统在空间推理任务上表现更好。这表明几何意识和语义理解之间实际上存在着深刻的、相辅相成的关系。一个人的空间感越好,就越能准确地描述和理解复杂的空间场景。 3. 令人难以置信的空间智能性能 G?VLM在各种测试中的能力令人印象深刻。它不仅在传统3D重建任务中达到业界领先水平,而且在复杂的空间推理任务中展现出前所未有的智能。在3D重建能力测试中,G·VLM作为专家架构师,我们能够准确地恢复3D场景的完整结构。在著名的Sintel数据集上的单目深度估计测试中,系统将之前最佳模型的误差从0.335降低到0.297。这相当于测量精度提高了 10% 以上。虽然这种改进在数字上可能看起来并不显着,但我这在实际应用中非常重要。正如 GPS 定位精度的微小改进可以显着改善您的浏览体验一样。 G?VLM 在更复杂的任务上也表现良好,例如点云重建和相机姿态估计。准确预测图像中每个像素的 3D 坐标,并以与专业 3D 重建软件相同的精度计算拍摄时的相机位置和角度。更重要的是,G?VLM只需要常规的2D图像即可实现这些功能,不需要额外的3D传感器或设备。然而,G?VLM 最令人印象深刻的是它在空间推理任务上的表现。在权威空间推理基准测试SPAR-Bench上,G?VLM-SR(专门优化的空间推理版本)取得了54分的成绩,87分的成绩比之前表现最好的GPT-4o模型高出18.5个百分点。差异非常显着,就好像一名学生在测试中获得了 90 分,而另一名学生仅获得了 70 分。更令人惊讶的是,G?VLM 可以执行复杂的多步骤推理。例如,如果你面临这样的问题:“当我在冰箱前面时,如何到达桌子上的电脑显示器?”,系统不仅可以识别场景中的不同物体,还可以准确理解它们的空间关系,并给出详细的导航指令,例如“转身直接到白色打印机,然后右转,经过盒子,到达黑色显示器。”在一次特别有趣的任务演示中,G?VLM 展示了卓越的空间记忆和推理能力。该系统找到了在复杂的室内环境中存放泰迪熊的完美礼品盒。不仅要能够记住不同房间的礼盒尺寸,还要能够比较、权衡,最终找到最佳的尺寸。整个过程是相似的ar 与人类在实际存储物品时的思维过程相似,反映了接近人类的空间智能水平。该系统还具有出色的视角转换功能。如果你问某人“当我坐在墙上一幅画下的椅子上时,书架相对于你在哪里?”,G?VLM 会准确地转换视角,从提问者的虚拟位置理解空间关系并准确回答,例如“书架在我的右边”。 4、创新点详细分析 G?VLM的创新点不仅体现在架构设计上,还体现在一系列重要技术问题的解决上。这些进步为整个人工智能领域的发展开辟了新的可能性。在选择视觉编码器时,研究团队做出了一个看似简单却非常重要的决定,为两位专家配备不同的“眼睛”。几何识别专家使用 DINOv2 编码器,这是一种系统干专门捕捉低级视觉特征,作为检测图像中微妙几何线索的精密仪器。语义识别专家,以及能够深入理解图像含义的专家学者,使用Qwen2视觉编码器来更好地理解图像的语义内容。这种双编码器设计最初遭到了一些怀疑,因为传统观点认为使用集成编码器会更容易、更高效。然而实验结果表明,这个设计是巧妙的。双编码器系统在几何重建和空间推理任务中都显着优于单编码器方案,这表明不同类型的视觉任务需要不同的视觉表示方法。研究团队还对护理机制的设计进行了广泛的研究。传统的 3D 重建模型通常会在帧之间交替关注。也就是说,有时我们会关注局部特征有时是单个图像的对应关系,有时是多个图像之间的对应关系。然而,或者说,这种切换机制是由现代语言模型架构支持的。这就像尝试在两台不同机器之间共享控制系统一样困难。经过大量实验,团队发现全局注意力机制效果最好。这种机制允许系统同时考虑所有输入图像的所有位置,就像指挥家可能会听到整个交响乐团同时演奏一样。尽管该方法计算量较大,但可以更好地捕获复杂的空间对应关系,为精确的三维重建奠定基础。研究团队的巧妙之处还体现在损失函数的设计上。我们不是简单地使用单一的评估标准,而是设计了一个多目标优化函数,同时考虑点云的重建精度。相机位姿估计的 y 以及表面法线预测的质量。这就像使用几种不同的规则来同时衡量产品的质量,并确保系统在各个维度上都符合高标准。尤其值得注意的是,研究团队还解决了影响大规模几何学习的训练稳定性的重要问题。他们发现训练过程中经常出现数值爆炸的情况,导致训练失败。经过仔细分析,团队发现这主要是由于 3D 注释数据中的噪声造成的。这就是为什么他们设计了智能损失截断机制。如果损失值超过阈值,则会进行平滑处理。这就像在强化学习过程中设置一个安全阀,以确保训练过程的稳定性。 5.广泛的应用可能性 G?VLM的创新特性为许多实际应用场景开辟了新的可能性。这些是应用程序将彻底改变我们与数字世界互动的方式。在机器人导航领域,G?VLM的空间理解能力可以让家庭机器人真正实用起来。传统机器人在开始工作之前通常需要创建其环境的详细地图。这就像路痴一样,出发前必须记住地图。配备G?VLM的机器人就像与生俱来的方向感。只需通过观察即可了解复杂的室内环境,准确判断物体之间的空间关系,提供复杂的导航指令。可以理解和实施。当谈到增强现实(AR)应用时,cG?VLM的3D重建能力可以让AR体验更加自然和准确。虽然当前的 AR 系统通常需要特殊标记或长期环境扫描来建立空间锚点,但 G?VLM 可以立即了解场景的三维结构,从而允许虚拟现实将物体精确地放置在现实世界中的正确位置。它就像虚拟世界和现实世界之间的完美桥梁。在建筑和室内设计领域,G?VLM可以成为设计师的得力助手。设计师只需对现有空间拍几张照片,系统就会自动生成精确的3D模型,以了解空间的功能布局和使用需求。此外,还可以通过与设计师的对话来支持空间规划,例如“我应该如何组织这个客厅,以便空间”G?VLM在电子商务和零售领域也具有广泛的应用潜力。消费者可以通过简单的语言描述和一些照片让系统了解他们的空间需求并获得个性化的产品推荐。例如,“我的卧室比较小,所以我需要一件可以用作书桌和梳妆台的家具。”我们会准确了解您的空间限制和功能需求,并为您提供最佳建议。在教育领域,G?VLM 可以彻底改变几何和空间概念的教学方式。传统的几何教育通常依赖于抽象的公式和图表,而 G?VLM 允许学生通过与现实生活场景的交互来理解空间概念。学生可以拍摄教室的照片,通过与系统的对话探索地理关系、度量和空间概念,使抽象知识具体化、生动化。在娱乐创作领域,G?VLM成为内容创作者的有力工具。电影制作者可以使用该系统快速生成场景的 3D 模型,用于镜头规划和特效设计。游戏开发人员可以从简单的照片快速构建游戏场景的几何基础。一般用户也可以利用该技术来完成创建具有空间感的交互内容。研究小组还指出,G?VLM 的非统一的架构将成为未来3D场景编辑功能的基础。未来,用户将可以使用自然语言指令直接修改3D场景,例如“将这个房间的墙壁颜色改为蓝色”或“为客厅添加沙发”。系统不仅能理解指令,还能准确地在三维空间中进行操作。 6.面临的挑战和未来展望 尽管G?VLM取得了令人瞩目的成果,但研究团队也坦诚地指出了当前的挑战和未来发展的方向。这些挑战不仅仅是技术问题,更是未来发展的方向。 AI空间智能整体发展过程中需要克服的里程碑,训练稳定性是我们目前面临的主要技术挑战之一,因为G?VLM需要同时学习两种复杂的技能:几何感知和语义理解,训练过程就像教一个人一样困难。同时学习高等数学和文学创作。特别是随着模型规模的增加,cap process.Citation变得更加不稳定,需要更仔细的调整和更多的计算资源。研究团队正在探索更先进的优化技术和训练策略来解决这个问题。计算资源需求也是一个真正的挑战。训练G?VLM需要大量的GPU资源和时间。 Geometry Recognition Expert 的预训练阶段需要 32 至 64 个 A800 GPU 运行数天或数周。目前,只有大型研究机构和科技公司才有能力满足这些计算需求,限制了该技术的采用和应用。该团队正在研究使用模型压缩和知识蒸馏等技术来降低计算阈值的方法。数据质量和注释成本也是持续的挑战。虽然G?VLM可以从普通的多-查看图像,高质量的 3D 几何注释数据仍然稀有且昂贵。现有的 3D 数据集经常受到标签噪声和有限覆盖范围的影响,使得对复杂的现实世界场景进行建模变得困难。文件性能。研究团队正在探索自监督学习和弱监督学习方法,以减少对高质量注释数据的依赖。增加模型规模是团队特别关注的一个发展方向。目前的G?VLM基于基本的2B参数模型,但与往往拥有数十亿参数的大型语言模型相比,它仍然相对较小。研究表明,较大的模型在一些复杂的空间推理任务上表现更好。该团队将开发一个更大的版本,用于探索太空智能的上限,他们计划发射该版本。提高泛化能力也是一个重要的研究方向。尽管G?VLM在测试数据集上表现良好,但性能仍然下降当面对完全看不见的场景类型时。模型需要更加稳健,尤其是在处理极端光照条件、复杂动态场景或文化起源截然不同的环境时。扩展联运功能也是一个有趣的方向。目前,G?VLM 主要处理视觉和语言信息,但真正的空间智能还应包括其他感官信息,例如触觉和听觉。例如,通过声音定位自己,通过触摸检测材料和形状等。研究团队正在寻找将这些功能集成到统一框架中的方法。实时优化是实际应用的关键要求。虽然目前G?VLM的推理速度尚可,但在需要实时反馈的应用场景,如机器人控制、AR交互等,仍有提升空间。该团队正在研究模型加速技术硬件优化解决方案可显着提高推理速度,同时保持准确性。最终,G?VLM 代表了人工智能迈向真正空间智能的重要一步。这不仅解决了长期困扰视觉语言模型的空间理解问题,更重要的是,为构建能够真正理解和操纵三维世界的人工智能系统奠定了坚实的基础。尽管我们距离完整的空间智能还很遥远,但这项研究为未来提供了明确的方向。正如人类婴儿需要不断探索和学习才能获得空间认知技能一样,人工智能空间智能的发展也是一个渐进的过程。 G?VLM的成功表明,通过模仿人脑的视觉处理机制,AI可以实现接近人类的空间理解能力。这不仅是技术进步,也加深了我们对自然的理解。智力的确定性。随着这项技术的进步和普及,我们有理由展望人工智能能够真正理解和参与三维世界的未来。届时,AI助手将不再是单纯“看图说话”的被动工具,而将成为能够真正理解空间、进行空间推理、甚至帮助改造环境的智能伙伴。这样的未来可能比我们想象的更近。 G?VLM 是通向这个未来的重要桥梁。 Q AQ1:什么是G?VLM? A:G?VLM是上海人工智能研究院与多所高校联合研发的创新人工智能系统。它是世界上第一个能够同时进行3D空间重建和高级空间推理的统一视觉语言模型。该系统模仿人脑的双视觉通路,拥有两位几何和语义感知专家。它不仅可以从 2D 照片重建 3D 场景,还可以进行合成lex 空间交互和推理。 Q2:G?VLM和现有的AI视觉系统有什么区别? A:传统的AI视觉系统就像一个不完整的大脑,里面只有“识别专家”,缺少“定位专家”。它只能识别物体,而不能识别空间关系。 G?VLM fIt由两位专家联合设计,让我们不仅能够识别“这是什么”,还能准确捕捉“它在哪里”、“它有多远”等空间信息。它允许真正的三维空间推理,类似于完整的人类视觉系统。 Q3:G?VLM 在实际应用中如何工作?答:G?VLM 在多项测试中表现出了良好的表现,在 3D 重建精度上优于专业模型,在空间推理测试中优于 GPT-4o 18.5 分。它能够进行复杂的多步推理,例如精确规划室内导航路线、执行透视变换以确定空间关系,并记住和比较不同房间中物体的尺寸特征,展示了接近人类的空间智能水平。
特别提示:以上内容(包括图片、视频,如有)时代)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

此条目发表在吃瓜热门分类目录。将固定链接加入收藏夹。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注