2ヶ月前
アクティビティ駆動の弱教師付き物体検出
Zhenheng Yang; Dhruv Mahajan; Deepti Ghadiyaram; Ram Nevatia; Vignesh Ramanathan

要約
弱教師付き物体検出は、検出モデルの学習に必要な監督量を削減することを目指しています。従来、このようなモデルはオブジェクトのクラスのみがラベル付けされた画像や動画から学習されてきましたが、オブジェクトのバウンディングボックスは提供されませんでした。当研究では、オブジェクトのクラスラベルだけでなく、データに関連するアクションラベルも活用しようと試みました。我々は、画像や動画で描かれるアクションが関連するオブジェクトの位置について強い手がかりを提供すると示しました。例えば、「ボールを蹴る」では「ボール」が「人の足」に近い位置にあるという空間的な事前知識を学習し、この事前知識を用いて物体検出とアクション分類の統合モデルを同時に学習させました。私たちはビデオデータセットと画像データセットの両方で実験を行い、弱教師付き物体検出モデルの性能を評価しました。当アプローチはCharadesビデオデータセットにおいて現行の最先端(SOTA)手法よりもmAPで6%以上優れた結果を示しました。