
要約
近年、未編集動画内における活動の時系列的局所化は広く研究されている。最近の進展にもかかわらず、弱教師あり時系列活動局所化手法は、活動が発生していない状況を認識する能力に欠けるのが現状である。この課題に対処するため、本研究ではA2CL-PTという新たな手法を提案する。本手法では、特徴空間において二つの三つ組(triplet)を用いる:一つは各活動クラスに対する判別性の高い特徴を学習するために使用され、もう一つは、各動画における活動が発生していない状態(すなわち背景特徴)と活動関連特徴を区別する目的で用いられる。さらに性能の向上を図るため、敵対的な動作を併用する二本の並列ブランチからなるネットワークを構築した。第一のブランチは動画内の最も顕著な活動を局所化し、第二のブランチは局所化されなかった部分から他の補完的な活動を発見する。THUMOS14およびActivityNetデータセットを用いた広範な実験により、提案手法の有効性が実証された。特に、THUMOS14データセットにおけるIoU閾値0.1~0.9の平均mAPは、27.9%から30.0%へと顕著に向上した。