要約
アクションセグメンテーションは、ロボットが人間の行動を自動的に理解するための重要な役割を果たす。アクション認識モデルを学習させる際、すべてのフレームに対してアクションラベルを取得することは費用がかかるが、タイムスタンプラベルを用いた弱教師あり学習であればコストが低く抑えられる。しかし、従来の手法ではタイムスタンプラベルを十分に活用できず、性能が十分に発揮されない場合がある。この課題を緩和するために、本研究では訓練段階において新しい学習パターンを提案した。この手法は、ラベルのないフレームの周囲のタイムスタンプにおけるアクションの和集合の確率を最大化することを目的としている。推論段階では、ソフトアサインされた予測からより良いハードアサインされたアクションクラスを生成するための新たな精緻化手法を提示した。特に重要なのは、本手法がモデルに依存せず、既存のフレームワークに容易に統合可能である点である。3つの一般的に用いられるアクションセグメンテーションデータセットにおいて、本手法は従来のタイムスタンプ監督手法を上回り、新たな最先端性能を達成した。さらに、完全教師ありラベルの1%未満で、同等またはより優れた結果を得ることができた。