8 个月前

计算机视觉

计算机视觉

Naiwen Hu Haozhe Cheng Yifan Xie Shiqi Li Jihua Zhu*

摘要

基于不变性和生成的方法在三维自监督表示学习（3D SSRL）中表现出显著的性能。然而，前者依赖于手工设计的数据增强方法，这些方法引入了并非普遍适用于所有下游任务的偏差；后者则无差别地重建被遮掩的区域，导致无关细节被保存在表示空间中。为了解决上述问题，我们提出了一种新颖的非生成式3D SSRL框架——3D-JEPA。具体而言，我们设计了一种多块采样策略，该策略能够生成一个信息量充足的情境块和多个具有代表性的目标块。我们还引入了情境感知解码器以增强目标块的重建效果。具体实现上，情境信息被连续输入到解码器中，从而促使编码器学习语义建模而非简单记忆与目标块相关的情境信息。总体而言，3D-JEPA通过编码器和情境感知解码器架构从情境块预测目标块的表示。不同数据集上的多种下游任务验证了3D-JEPA的有效性和高效性，在较少的预训练轮次下实现了更高的准确性，例如，在PB_T50_RS数据集上仅经过150轮预训练即可达到88.65%的准确率。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Naiwen Hu Haozhe Cheng Yifan Xie Shiqi Li Jihua Zhu*

摘要

基于不变性和生成的方法在三维自监督表示学习（3D SSRL）中表现出显著的性能。然而，前者依赖于手工设计的数据增强方法，这些方法引入了并非普遍适用于所有下游任务的偏差；后者则无差别地重建被遮掩的区域，导致无关细节被保存在表示空间中。为了解决上述问题，我们提出了一种新颖的非生成式3D SSRL框架——3D-JEPA。具体而言，我们设计了一种多块采样策略，该策略能够生成一个信息量充足的情境块和多个具有代表性的目标块。我们还引入了情境感知解码器以增强目标块的重建效果。具体实现上，情境信息被连续输入到解码器中，从而促使编码器学习语义建模而非简单记忆与目标块相关的情境信息。总体而言，3D-JEPA通过编码器和情境感知解码器架构从情境块预测目标块的表示。不同数据集上的多种下游任务验证了3D-JEPA的有效性和高效性，在较少的预训练轮次下实现了更高的准确性，例如，在PB_T50_RS数据集上仅经过150轮预训练即可达到88.65%的准确率。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供