2ヶ月前

simCrossTrans: オブジェクト検出のための単純なクロスモダリティ転移学習 - ConvNetsまたはビジョントランスフォーマーを使用して

Shen, Xiaoke ; Stamos, Ioannis
simCrossTrans: オブジェクト検出のための単純なクロスモダリティ転移学習 - ConvNetsまたはビジョントランスフォーマーを使用して
要約

転移学習は、コンピュータビジョン(CV)や自然言語処理(NLP)の分野で広く使用され、大きな成功を収めています。これらの大多数の転移学習システムは同じモダリティに基づいています(例:CVではRGB画像、NLPではテキスト)。しかし、クロスモダリティ転移学習(CMTL)システムは少ないのが現状です。本研究では、2Dから3DセンサへのCMTLを研究し、3Dセンサのみを使用するシステムの性能上限を探ることを目的としています。これらのシステムはロボットナビゲーションにおいて重要な役割を果たし、低照度環境下でも優れた性能を発揮します。2Dから3Dビジョンへの大多数のCMTLパイプラインは複雑であり、畳み込みニューラルネットワーク(ConvNets)に基づいていますが、当社の手法は実装が簡単で拡張性があり、ConvNetsとビジョントランスフォーマー(ViTs)の両方を利用しています。1) ポイントクラウドを疑似画像に変換することで、2D画像ベースの事前学習モデルからほぼ同一のネットワークを使用できます。これにより、当社のシステムは実装と拡張が容易になります。2) 最近、ViTsは良好な性能と遮蔽に対する堅牢性を示しており、これは3Dビジョンシステムのパフォーマンス低下の一因となっています。類似したモデルサイズを持つViTとConvNetの両方について性能差を調査しました。このアプローチをsimCrossTransと名付けました:ConvNetsまたはViTsを使用した単純なクロスモダリティ転移学習。SUN RGB-Dデータセットでの実験結果は以下の通りです:simCrossTransを使用することで、ConvNetsベースでは13.2%、ViTsベースでは16.1%という絶対的な性能向上が達成されました。また、ViTsベースの方がConvNetsベースよりも9.7%高い性能を示しており、simCrossTransにおけるViTの威力が確認できました。ViTsを使用したsimCrossTransは以前の最先端(SOTA)技術に対してmAP50で+15.4%の大差で上回っています。RGB画像に基づく2D検出SOTAとの比較では、深度画像のみを使用する当社のシステムはわずか1%の差しかありませんでした。コード、訓練/推論ログおよびモデルは公開されており、以下のURLからアクセスできます:https://github.com/liketheflower/simCrossTrans