17日前

MultiMAE:マルチモーダル・マルチタスク・マスクドオートエンコーダー

Roman Bachmann, David Mizrahi, Andrei Atanov, Amir Zamir
MultiMAE:マルチモーダル・マルチタスク・マスクドオートエンコーダー
要約

我々は、マルチモーダル・マルチタスク・マスクドオートエンコーダ(MultiMAE)と呼ばれる事前学習戦略を提案する。この手法は従来のマスクドオートエンコーディングと2点で異なる。第一に、RGB画像に加えて、入力として任意の追加モダリティ(情報モード)を受容可能である(「マルチモーダル」の由来)。第二に、学習目的としてRGB画像に加えて複数の出力を予測することを含む(「マルチタスク」の由来)。MultiMAEの学習を実行可能かつ効率的にし、ネットワークがモダリティ間の予測符号化(cross-modality predictive coding)を真に学習することを保証するために、画像パッチおよび入力モダリティの両方に対してマスキングを用いる。本研究では、この事前学習戦略が、柔軟性に富み、シンプルかつ効率的なフレームワークを構築でき、下流タスクへの転移性能が向上することを示す。特に、RGB画像以外の追加情報が利用可能か否かにかかわらず、同一の事前学習済みネットワークを柔軟に再利用可能であり、あらゆる設定においてベースラインを上回る、あるいは顕著に優れた結果を達成している。複数モダリティおよび複数タスクを備えた学習データセットの必要性を回避するため、MultiMAEは完全に擬似ラベル(pseudo labeling)を用いて学習させている。このアプローチにより、任意のRGBデータセットに対して本フレームワークを広く適用可能となる。実験は、複数の転移タスク(画像分類、セマンティックセグメンテーション、深度推定)および複数のデータセット(ImageNet、ADE20K、Taskonomy、Hypersim、NYUv2)を対象に行われた。その結果、モデルがマルチモーダル・マルチタスク予測符号化および転移学習において、驚くべきほど優れた能力を発揮していることが明らかとなった。

MultiMAE:マルチモーダル・マルチタスク・マスクドオートエンコーダー | 最新論文 | HyperAI超神経