12日前
AutoLoc:非教師付きトランスクリプト動画内の時系列行動局所化
{Shih-Fu Chang, Kazuyuki Miyazawa, Hang Gao, Zheng Shou, Lei Zhang}

要約
未編集動画における時系列行動局所化(Temporal Action Localization, TAL)は、多くの応用において重要である。しかし、セグメントレベルの真値(行動クラスおよび時間的境界)をアノテーションするには非常に高いコストがかかる。このため、弱教師あり学習(weakly-supervised learning)によるTALのアプローチが注目されている。すなわち、学習段階では動画レベルのラベルしか利用できない状況である。しかしながら、現在の最先端の弱教師ありTAL手法は、時間軸上の良いクラス活性化シーケンス(Class Activation Sequence, CAS)を生成することに焦点を当てており、行動の局所化には単純な閾値処理を用いているにとどまっている。本論文では、各行動インスタンスの時間的境界を直接予測することを目的として、新たな弱教師ありTALフレームワーク「AutoLoc」を提案する。さらに、境界予測器の学習に必要なセグメントレベルの自己監督信号を自動的に発見するため、新規の外-内対比損失(Outer-Inner-Contrastive, OIC損失)を導入する。本手法は顕著な性能向上を達成した。IoU閾値0.5の条件下で、THUMOS'14ではmAPを13.7%から21.2%へ、ActivityNetでは7.4%から27.3%へと改善した。また、完全教師あり手法と比較しても競争力のある結果を達成した点は、非常に前向きな成果である。