SF-Net:時系列行動局所化のための単一フレーム監視

本稿では、時間的アクションローカライゼーション(TAL)における中間的な教師信号の一種である「単一フレーム教師信号」について検討する。単一フレーム教師信号を得るため、アノテーターにはアクションの時間的ウィンドウ内から一つのフレームのみを特定するように依頼する。これにより、アクションの境界をすべてアノテートする必要がある完全教師信号を取得する場合に比べ、人的労力の大幅な削減が可能となる。また、動画全体のラベルのみをアノテートする弱教師信号と比較して、単一フレーム教師信号は追加の時間的アクション情報を導入しつつ、アノテーションの負荷を低く保つことができる。このような単一フレーム教師信号を効果的に活用するため、本研究ではSF-Netと呼ばれる統一的な枠組みを提案する。まず、各動画フレームに対してアクション度スコアを予測する手法を導入する。通常のカテゴリスコアに加え、アクション度スコアは潜在的なアクションの発生に関する包括的な情報を提供し、推論時に時間的境界の精緻化を支援する。次に、単一フレームのアノテーションを基に疑似アクションフレームと疑似バックグラウンドフレームを抽出する。疑似アクションフレームは、各アノテートされた単一フレームを周辺の文脈フレームに適応的に拡張することで特定し、疑似バックグラウンドフレームは複数の動画にわたるすべてのアノテートされていないフレームから抽出する。これらの疑似ラベル付きフレームと真のラベル付きフレームを組み合わせて、分類器の訓練に用いる。THUMOS14、GTEA、BEOIDの3つのデータセットにおける広範な実験結果から、SF-Netは従来の最先端の弱教師学習手法に比べ、セグメントローカライゼーションおよび単一フレームローカライゼーションの両面で顕著な性能向上を達成した。特に注目すべきは、SF-Netがはるかにリソース集約的な完全教師信号を必要とする対応する完全教師学習モデルと同等の性能を達成している点である。実装コードは以下のURLから公開されている:https://github.com/Flowerfan/SF-Net。