2ヶ月前
ML-Decoder: スケーラブルで多用途な分類ヘッド
Ridnik, Tal ; Sharir, Gilad ; Ben-Cohen, Avi ; Ben-Baruch, Emanuel ; Noy, Asaf

要約
本論文では、新しいアテンションベースの分類ヘッドであるML-Decoderを紹介します。ML-Decoderはクエリを通じてクラスラベルの存在を予測し、グローバル平均プーリングに比べて空間データの利用効率を大幅に向上させます。デコーダーのアーキテクチャを見直し、新しいグループデコーディングスキームを使用することで、ML-Decoderは非常に効率的であり、数千ものクラスにもスケールアップできます。より大きなバックボーンを使用する場合と比較して、ML-Decoderは一貫して速度と精度のトレードオフを改善します。また、ML-Decoderは汎用性が高く、様々な分類ヘッドの置き換えとして使用でき、単語クエリを使用することで未見のクラスにも一般化することができます。新たなクエリ拡張技術により、その一般化能力がさらに向上します。ML-Decoderを使用することで、いくつかの分類タスクで最先端の結果を達成しました:MS-COCOマルチラベルでは91.4%のmAP(mean Average Precision)、NUS-WIDEゼロショットでは31.1%のZSL mAP(Zero-Shot Learning mean Average Precision)、ImageNetシングルラベルではvanilla ResNet50バックボーンを使用して80.7%という新記録を達成しました(追加データやディスティレーションなし)。公開コードは以下のURLから入手可能です:https://github.com/Alibaba-MIIL/ML_Decoder