2ヶ月前
自己監督型トランスフォーマーにおける弱い教師ありオブジェクト位置特定のための提案の判別的サンプリング
Shakeeb Murtaza; Soufiane Belharbi; Marco Pedersoli; Aydin Sarraf; Eric Granger

要約
ドローンは視覚認識アプリケーションの分野でますます多くの用途に使用されています。最近の発展として、セル塔検査においてドローンを用いた資産監視が注目されています。この手法では、ドローンの自律飛行が連続する空中画像における対象物の位置特定によって導かれます。本論文では、画像クラスラベルのみを使用して高信頼度で対象物を位置特定する深層弱教師あり物体位置特定(WSOL)モデルの学習方法を提案します。当方のローカライザの学習には、自己教師ありビジョントランスフォーマー(SSTs)から効率的に疑似ラベルを収集します。しかし、SSTsはシーンを複数のマップに分解し、さまざまな物体部位を含むため、明示的な教師信号に依存せず、対象物と他の物体との区別がつきません。この問題に対処するために、異なるトランスフォーマーヘッドによって生成される複数のマップから疑似ラベルを得る手法を提案します。特に、新しい差別的プロポーザルサンプリング(DiPS)手法を導入しました。これはCNN分類器を利用して差別的領域を識別することに依存しています。次に、これらの領域から前景および背景ピクセルがサンプリングされ、特定クラスに属する物体を正確に位置特定できる活性化マップを生成するWSOLモデルの学習を行います。挑戦的なTelDroneデータセットでの経験的結果は、当方提案手法が生成されたマップに対する広範な閾値範囲で最先端の手法を超える性能を持つことを示しています。またCUBデータセットでも結果を求めましたところ、当方の手法は他のタスクにも適応可能であることが確認されました。