
要約
現在までに、さまざまな3Dシーン理解タスクにおいて、実用的かつ汎化可能な事前学習モデルが不足している状況です。これは主に、3Dシーン理解タスクの複雑な性質と、カメラ視点、照明、遮蔽などによって引き起こされる多大な変動が原因となっています。本論文では、この課題に対処するために、ラベルなしの3D点群データから自己教師あり学習で学習できる空間時間表現学習(Spatio-Temporal Representation Learning: STRL)フレームワークを導入します。乳児が自然界の視覚データから学ぶ方法に着想を得て、3Dデータから得られる豊富な空間時間的な手がかりを探求します。具体的には、STRLは3D点群シーケンスから時系列的に相関のある2つのフレームを取り込み、空間データ拡張により変換し、自己教師あり学習で不変表現を学びます。STRLの効果を検証するため、合成データセット、室内データセット、室外データセットの3種類のデータセットに対して広範な実験を行いました。実験結果は、監督学習手法と比較して、自己教師あり学習で得られた表現がさまざまなモデルの性能を同等またはそれ以上のものにすることができることを示しています。さらに、事前学習モデルを3D形状分類、3D物体検出、3D意味分割などの下流タスクに汎化させる能力も有しています。また、3D点群に埋め込まれた空間時間的な文脈的手がかりは、学習された表現を大幅に改善することを示しています。