
要約
動画内の行動を局所化することは、コンピュータビジョンにおける中心的なタスクである。弱教師あり時系列局所化問題は、動画レベルのラベルのみを用いてこのタスクを適切に解くことができるかを検討するものであり、高コストかつ誤りの多いフレームレベルのアノテーションを大幅に削減する可能性を秘めている。一般的なアプローチとして、フレームレベルの分類器を学習し、各フレームのクラス確率が最も高いものを選択して動画レベルの予測を行う方法がある。その後、これらのフレームの活性化マップを用いて局所化を実現する。しかし、フレームレベルのアノテーションが存在しないため、分類器はすべてのフレームに対してクラスバイアスを導入してしまう。この問題に対処するため、本研究では「アクションネス(actionness)」と呼ぶ、行動の一般的な概念を捉えるための行動選択学習(Action Selection Learning, ASL)を提案する。ASLでは、分類器がどのフレームを選択するかを予測する新たなクラスに依存しないタスクに基づいてモデルを学習する。実験的に、THUMOS-14およびActivityNet-1.2という2つの代表的なベンチマークにおいて、ASLが最先端のベースラインをそれぞれ10.3%および5.7%の相対的な向上率で上回ることを示した。さらに、ASLの性質を分析し、アクションネスの重要性を実証した。本研究の完全なコードは以下のリンクから公開されている:https://github.com/layer6ai-labs/ASL。