AI的下一个高地：当它学会“看见”并“理解”三维世界|爱祝分享小站

在AI的浪潮中，
我们是否过于执着于“语言”？
当模型能读懂文字、生成对话，
它们真的理解了我们身处的世界吗？
或许，
答案藏在我们习以为常的维度里。

从“说了什么”到“身在哪里”

我们训练大型语言模型阅读海量文本，让它们学会预测下一个词。这带来了惊人的对话能力，但这种理解是扁平的、符号化的。它知道“苹果”是一种水果，可能关联着“牛顿”和“公司”，但它无法理解一个苹果放在桌沿一半悬空时即将发生的坠落，也不理解在杂乱房间中寻找钥匙时，视线应该如何有策略地扫过各个平面与遮挡物。这就是当前AI与人类智能的一个核心差距：缺乏对三维物理世界及其动态、空间关系的直观理解与推理能力。这种理解，即空间智能，是我们与生俱来、赖以生存的基础，却成了AI亟待攻克的高地。

空间智能：不只是“看”，更是“想”与“动”

空间智能远不止计算机视觉中的图像识别。识别出一张图片里有“猫”和“沙发”是第一步。真正的空间智能意味着AI能推断出：猫正蜷在沙发左侧的软垫上，它距离茶几上的杯子有大约50厘米，如果它跳向杯子，轨迹会是如何，杯子被碰倒的可能性有多大。这涉及到对几何、拓扑、物理定律以及物体功能与用途的整合推理。例如，一个具身AI机器人要帮你拿冰箱里的饮料，它需要的不仅是识别冰箱门，还要理解这是一个可绕轴旋转的刚性物体，需要施加特定方向和大小的力才能打开，门打开后内部空间布局如何，如何避开里面的鸡蛋盒抓取目标罐体。这每一步，都是对空间的深刻理解与交互。

通往具身智能的必经之路

空间智能的突破，是迈向具身智能——即AI拥有物理身体并能与之互动——的关键桥梁。无论是家庭服务机器人、自动驾驶汽车，还是在复杂工业环境中自主操作的机械臂，它们都必须在一个连续、动态且充满不确定性的三维世界中实时感知、规划与行动。这要求AI模型从处理离散的文本符号，转变为处理连续的传感器数据流（如激光雷达、深度相机），并构建起不断更新的内部世界模型。这个模型能预测自身行动的结果，理解“如果我把这个积木放在那个倾斜的板子上，它可能会滑落”。这种基于物理的常识推理，是目前基于纯文本训练的模型难以企及的。

如何“教会”AI理解空间？

构建空间智能的路径是多元且充满挑战的。一种思路是开发新型的架构与训练范式。例如，除了输入文本，让模型大量处理三维点云数据、物体CAD模型、仿真环境中的交互序列，甚至结合来自视觉、触觉、力觉的多模态信息。另一种思路是借鉴发展心理学，让AI像婴儿一样，通过“感知运动学习”来探索世界：在虚拟或真实的物理仿真中，通过无数次尝试去抓取、推倒、堆叠物体，从而内化关于重力、摩擦力、刚体运动的基本规律。此外，生成式模型也能发挥作用，想象AI不仅能生成图片，还能生成合理的三维场景布局，或者预测一个场景在几秒后的物理状态变化，这本身就是一种强大的空间推理训练。

我们正站在一个范式转换的节点。当AI的焦点从浩瀚的文本宇宙，部分回归到我们赖以生存的、具体而微的物理宇宙时，一场更深层次的智能革命正在酝酿。这不仅仅是让机器变得更“有用”，更是让它们开始触及我们人类对世界那份最原始、最根本的理解方式。未来的AI，或许将不再只是一个对话的窗口，而成为一个能在我们的世界里，与我们并肩观察、思考和行动的伙伴。

信息参考与延伸方向：

具身人工智能与物理世界模型的相关研究。
三维场景理解、神经辐射场（NeRF）等计算机视觉前沿。
发展心理学中关于婴儿空间认知发展的理论。
机器人技术中的同时定位与地图构建（SLAM）、运动规划算法。
配图参考区：

本文作者为izhu，转载请注明。