2ヶ月前
普遍的なインスタンス認識におけるオブジェクトの発見と検索
Yan, Bin ; Jiang, Yi ; Wu, Jiannan ; Wang, Dong ; Luo, Ping ; Yuan, Zehuan ; Lu, Huchuan

要約
すべてのインスタンス認識タスクは、カテゴリ名、言語表現、目標アノテーションなどのクエリによって指定された特定のオブジェクトを見つけることを目指していますが、この分野は複数の独立したサブタスクに分割されています。本研究では、次世代の普遍的なインスタンス認識モデルであるUNINEXTを提案します。UNINEXTは、多様なインスタンス認識タスクを統一されたオブジェクト発見と検索のパラダイムに再定式化し、入力プロンプトを単純に変更することで異なる種類のオブジェクトを柔軟に認識することができます。この統一的な定式化は以下の利点をもたらします:(1) 異なるタスクやラベル語彙から得られる大量のデータを使用して、一般的なインスタンスレベルの表現を共同で学習することができ、特に訓練データが不足しているタスクにとって有益です。(2) 統一モデルはパラメータ効率が高く、複数のタスクを同時に処理する際には冗長な計算を節約できます。UNINEXTは、古典的な画像レベルのタスク(物体検出とインスタンスセグメンテーション)、ビジョン・アンド・ランゲージタスク(参照表現理解とセグメンテーション)、および6つのビデオレベルの物体追跡タスクなど、10つのインスタンスレベルのタスクにおける20つの困難なベンチマークで優れた性能を示しています。コードは https://github.com/MasterBin-IIAU/UNINEXT で入手可能です。