HyperAIHyperAI

Command Palette

Search for a command to run...

オムニボア:多数の視覚モダリティ向けの単一モデル

Rohit Girdhar Mannat Singh Nikhila Ravi Laurens van der Maaten Armand Joulin Ishan Misra

概要

従来の研究では、画像、動画、3Dデータといった異なる視覚モダリティが個別に扱われ、それぞれに対して専用のアーキテクチャが開発されてきた。一方、本論文では、画像、動画、単一視点3Dデータの分類において、まったく同じモデルパラメータを用いて優れた性能を発揮する単一のモデルを提案する。我々が開発した「Omnivore」モデルは、Transformerベースのアーキテクチャの柔軟性を活かし、異なるモダリティからの分類タスクを統合的に学習する。Omnivoreは訓練が容易であり、標準的な市販データセットを用いるだけで、サイズが同等のモダリティ特化型モデルと比較して同等またはそれ以上の性能を達成する。単一のOmnivoreモデルは、ImageNetで86.0%、Kineticsで84.1%、SUN RGB-Dで67.1%の精度を達成した。ファインチューニングを施した後、多様な視覚タスクにおいて既存の手法を上回り、異なるモダリティ間での一般化能力も示した。Omnivoreが共有する視覚表現により、モダリティ間の対応関係を必要とせずに自然にクロスモダリティ認識が可能となる。本研究の成果が、視覚モダリティを統合的にモデル化する研究の促進につながることを期待する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています