2ヶ月前
MDETR -- 調節検出によるエンドツーエンドの多モーダル理解
Kamath, Aishwarya ; Singh, Mannat ; LeCun, Yann ; Synnaeve, Gabriel ; Misra, Ishan ; Carion, Nicolas

要約
多モーダル推論システムは、事前学習された物体検出器に依存して、画像から関心領域を抽出します。しかし、この重要なモジュールは通常、下流タスクとは独立して、また固定された物体と属性の語彙で訓練されます。これにより、自由形式のテキストで表現される視覚概念のロングテールを捉えることが難しくなります。本論文では、MDETR(Modulated Detector)というエンドツーエンドの調節型検出器を提案します。この検出器は、キャプションや質問などの生テキストクエリに基づいて画像内の物体を検出します。我々は、変換器ベースのアーキテクチャを使用し、モデルの初期段階でテキストと画像を融合させることで、両方のモーダルについて共同で推論を行います。ネットワークは130万件のテキスト-画像ペアで事前学習され、これらのペアは既存の多モーダルデータセットから抽出され、テキスト内のフレーズと画像内の物体との明確な対応関係を持っています。その後、フレージングラウンディング、参照表現理解、セグメンテーションなどのいくつかの下流タスクに対して微調整を行い、人気のあるベンチマークにおいて最先端の結果を得ています。さらに、当モデルが特定のラベルセットでの物体検出器として利用可能かどうかについても少ショット設定での微調整を通じて調査しました。我々は実験によって示していますが、当社の事前学習アプローチは非常に少ないラベル付きインスタンスしかない物体カテゴリのロングテールに対処する方法を提供します。当手法は視覚的な質問応答にも容易に拡張でき、GQAやCLEVRにおいて競争力のある性能を達成しています。コードとモデルは https://github.com/ashkamath/mdetr で公開されています。