
要約
複数の空間モダリティを活用することは、意味セグメンテーションの性能向上に有効であることが実証されている。しかし、現実世界における以下の課題は依然として解決されていない:(a) ラベル効率の向上、および (b) テスト時にモダリティが欠落する現実的な状況におけるモデルのロバスト性の強化。これらの課題に対処するために、まず、限られた教師信号下でも最先端のマルチモーダルモデルを上回る性能を発揮する、シンプルかつ効率的なマルチモーダル融合機構「Linear Fusion」を提案する。次に、未ラベルデータを活用することで、マルチモーダル性能の向上と、現実的なモダリティ欠落状況に対するロバスト性を両立する、半教師ありフレームワーク「M3L: Multi-modal Teacher for Masked Modality Learning」を提案する。本研究では、半教師ありマルチモーダル意味セグメンテーションのための最初のベンチマークを構築し、モダリティ欠落に対するロバスト性も報告している。提案手法は、最も競争力のあるベースラインに対して、ロバストなmIoUで最大10%の絶対的向上を達成した。コードは以下のURLで公開されている:https://github.com/harshm121/M3L