这种方法适用于具有完美相机姿势和内在特征的 rgbd 渲染数据。 )特征融合(feature fusion) 与稠密映射方法不同的是,除了深度和颜色之外,模型还融合了其他特征。 这种方法适用于具有噪声深度图渲染或噪声相机姿势和内在特征的三维数据。 )神经场(neural field) 利用神经voxel场构建三维紧凑表征,具体来说,除了密度和颜色外,神经场中的每个voxel都有一个特征,可以利用 MSE 损失对射线中的三维特征和像素中的二维特征进行对齐。
这种方法适用于有 RGB 渲染但无深度数据的三维数据,以及有噪声的相 葡萄牙语帝汶电子邮件列表 机姿态和本征。 训练DLLMs 考虑到使用三维特征提取器可以将三维特征映射到与二维图像相同的特征空间,因此使用这些二维视觉语言模型作为DLLM的骨干是合理的。 二维特征处于相同的特征空间,而且感知器能够处理相同特征维度的任意输入大小,因此任意大小的点云特征也可以输入到感知机中。 因此,研究人员使用三维特征提取器在与冻结图像编码器特征相同的特征空间中提取三维特征,然后使用预训练二维视觉语言模型作为骨干网络,输入对齐的三维特征和收集的D语言数据集来训练D语言模型。

D定位机制 除了建立与语言语义相匹配的三维特征外,捕捉三维空间信息也至关重要。 研究人员提出了一种三维定位机制,以提高三维LLMs吸收空间信息的能力。 该机制由两部分组成: 用位置嵌入增强三维特征,将所有嵌入串联起来作为最终特征; 将三维位置放入嵌入词汇表,用AABB的形式表示边界框,连续角坐标被统一离散为voxel整数,在语言模型的输入和输出嵌入中解冻这些token的权重。 二、实验部分 从ScanQA验证集和测试集的实验结果中可以看到,几乎所有的评估指标都得到了明显提升。
|