時系列アクティビティ検出のための弱教師付き自己教師あり事前学習

時系列アクティビティ検出(Temporal Activity Detection)は、動画分類(アクティビティ認識)における動画レベルの予測とは異なり、各フレームごとにアクティビティクラスを予測することを目的としている。しかし、検出タスクにはフレームレベルの高コストなアノテーションが必要となるため、検出データセットの規模は限定的である。そのため、従来の時系列アクティビティ検出研究では、大規模な分類データセット(例:Kinetics-400)で事前学習された分類モデルを微調整(fine-tuning)する手法が一般的である。しかしながら、事前学習タスクと微調整タスクの間には明確なギャップがあるため、このような事前学習モデルは検出タスクに最適ではない。本研究では、検出タスク向けに新たな「弱教師付き自己教師学習(weakly-guided self-supervised)」の事前学習手法を提案する。本手法は、弱教師信号(分類ラベル)を活用して、フレームレベルの擬似ラベル、複数アクティビティを含むフレーム、およびアクティビティセグメントを生成することで、自己教師学習の前処理タスク(検出)を導入する。要するに、追加のアノテーションを一切必要とせず、大規模な分類データ上で、実際の検出タスクに類似したタスクを設計して事前学習を行う。実験の結果、提案手法により事前学習されたモデルは、CharadesやMultiTHUMOSを含む複数の難易度の高いアクティビティ検出ベンチマークにおいて、既存手法を上回る性能を達成した。さらに、広範な消去実験を通じて、本手法をアクティビティ検出に適用する際の適切なタイミングと方法に関する貴重な知見が得られた。コードは以下のURLから公開されている:https://github.com/kkahatapitiya/SSDet。