13日前
オムニボア:多数の視覚モダリティ向けの単一モデル
Rohit Girdhar, Mannat Singh, Nikhila Ravi, Laurens van der Maaten, Armand Joulin, Ishan Misra

要約
従来の研究では、画像、動画、3Dデータといった異なる視覚モダリティが個別に扱われ、それぞれに対して専用のアーキテクチャが開発されてきた。一方、本論文では、画像、動画、単一視点3Dデータの分類において、まったく同じモデルパラメータを用いて優れた性能を発揮する単一のモデルを提案する。我々が開発した「Omnivore」モデルは、Transformerベースのアーキテクチャの柔軟性を活かし、異なるモダリティからの分類タスクを統合的に学習する。Omnivoreは訓練が容易であり、標準的な市販データセットを用いるだけで、サイズが同等のモダリティ特化型モデルと比較して同等またはそれ以上の性能を達成する。単一のOmnivoreモデルは、ImageNetで86.0%、Kineticsで84.1%、SUN RGB-Dで67.1%の精度を達成した。ファインチューニングを施した後、多様な視覚タスクにおいて既存の手法を上回り、異なるモダリティ間での一般化能力も示した。Omnivoreが共有する視覚表現により、モダリティ間の対応関係を必要とせずに自然にクロスモダリティ認識が可能となる。本研究の成果が、視覚モダリティを統合的にモデル化する研究の促進につながることを期待する。