11日前

CrossMoCo:点群におけるマルチモーダルモメンタム対比学習

{Nizar Bouguila, Zachary Patterson, Sneha Paul}
要約

ポイントクラウドは、特定の構造を持たず、順序に対して不変な3D幾何学的データである。近年、視覚タスク分野におけるポイントクラウドの応用が注目を集めている。しかし、現在の多数のポイントクラウド関連研究は、大規模なラベル付きデータ上で教師あり学習を用いるものであり、これらのデータ収集は費用がかかり、手間がかかるという課題がある。このような状況を踏まえ、自己教師学習を含む非教師あり学習が、2Dコンピュータビジョンのさまざまなタスクにおいて有望な性能を示しており、3Dコンピュータビジョンへの応用の可能性も秘めている。本研究では、ポイントクラウドデータの未ラベル表現を、そのポイントクラウドからレンダリングされた2D画像も活用するマルチモーダル環境で学習する新しい自己教師学習手法「CrossMoCo」を提案する。CrossMoCoは、より多くのネガティブサンプルを用いたモーメンタム対照学習と、複数視点間のモーダル内対照学習という2つの新概念を導入することで、既存のマルチモーダル自己教師学習手法を上回る性能を達成している。第一の構成要素は、オンラインエンコーダとモーメンタムエンコーダを用い、多数のネガティブサンプルから学習することで一貫した学習信号を提供する。第二の構成要素は、同一モーダルのサンプルに対する異なる視点間の一貫性を強制することで、マルチモーダル表現の質を向上させる。本研究では、線形分類および少サンプル学習タスクにおいて、代表的なベンチマークデータセット(ModelNet40およびScanObjectNN)を用いて広範な実験を行った。その結果、両データセットにおいて、線形分類タスクで最大4.36%、少サンプル学習タスクで最大9.2%の性能向上を達成し、既存手法を上回ることを示した。本研究のコードは、https://github.com/snehaputul/CrossMoCo にて公開されている。