オブジェクト認識型蒸留ピラミッドによるオープンボリュームオブジェクト検出

オープンボリュームオブジェクト検出は、固定されたオブジェクトカテゴリ群で訓練されたオブジェクト検出器に、任意のテキストクエリで記述されたオブジェクトを検出する汎化能力を付与することを目的としています。従来の手法では、事前学習された視覚・言語モデル(PVLM)から知識を抽出し、それを検出器に転移するため、知識蒸留(knowledge distillation)を採用しています。しかし、提案領域の非適応的クロッピングおよび単一レベルの特徴類似化というプロセスにより、知識抽出時に情報の損失が生じ、知識転移の効率も低下するという課題がありました。この問題を解決するため、本研究では「オブジェクト認識型蒸留ピラミッド(Object-Aware Distillation Pyramid, OADP)」フレームワークを提案します。このフレームワークは、オブジェクト認識型知識抽出(Object-Aware Knowledge Extraction, OAKE)モジュールと、蒸留ピラミッド(Distillation Pyramid, DP)機構の2つの主要構成要素から成り立っています。PVLMからオブジェクト知識を抽出する際、OAKEモジュールは提案領域を適応的に変換し、オブジェクト認識型マスクアテンションを用いることで、オブジェクトに関する正確かつ包括的な知識を取得します。一方、DP機構は、グローバル蒸留とブロック蒸留を導入することで、オブジェクト蒸留における関係情報の欠落を補完し、より包括的な知識転移を実現します。広範な実験の結果、本手法は既存手法と比較して顕著な性能向上を達成しました。特にMS-COCOデータセットにおいて、OADPフレームワークは35.6 mAP$^{\text{N}}{50}$を達成し、現在の最先端手法を3.3 mAP$^{\text{N}}{50}$上回りました。実装コードは、https://github.com/LutingWang/OADP にて公開されています。