8ヶ月前

概要

物体とは何か？これはコンピュータビジョンにおける長年の問いであり続けています。この目標に向けて、学習を必要としないアプローチや学習に基づくアプローチが数多く開発され、物体性のスコアリングに利用されてきました。しかし、これらの手法は一般的に新しいドメインや未知の物体に対してスケーラビリティが十分ではありません。本論文では、既存の手法が人間が理解できる意味論によって統治されるトップダウンの監督信号を欠いていることを指摘します。文献で初めて、画像-テキスト対応データで訓練されたマルチモーダルビジョントランスフォーマー（MViT）がこのギャップを効果的に埋められることを示します。我々の多岐にわたるドメインや未知の物体に対する広範な実験結果は、MViTが画像中の一般的な物体を局所化する上で最先端の性能を達成していることを示しています。既存のMViTがマルチスケール特徴処理を含まないことが多く、通常より長いトレーニング期間を必要とするという観察に基づき、マルチスケール変形注意機構と遅延ビジョン言語融合を使用した効率的なMViTアーキテクチャを開発しました。我々はオープンワールドオブジェクト検出、注目すべき物体検出およびカモフラージュ物体検出、教師ありおよび自己教師あり検出タスクなど、多様なアプリケーションにおいてMViT提案の重要性を示しています。さらに、MViTは特定の言語クエリに基づいて適応的に提案を生成することができ、これにより相互作用性が向上します。コード: \url{https://git.io/J1HPY}

ソースPDF コードを表示