
人間の行動を予測する問題は、本質的に不確実性を含むものである。しかし、行動を取っている主体が何を達成しようとしているかという目的(ゴール)に関する情報を得られれば、この不確実性を低減できる。本研究では、未来の行動予測における不確実性を低減する目的で、ゴール情報を活用する行動予測モデルを提案する。推論時には、ゴール情報や観測された行動が入手できないため、行動とゴールに関する情報を統合的に表現するための視覚的表現(visual representation)を用いる。これにより、観測された視覚特徴の時系列に条件づけられた、行動予測に特化した新たな概念「抽象的ゴール(abstract goal)」を導入する。本研究では、抽象的ゴールを変分的再帰ネットワーク(variational recurrent network)を用いてパラメータ推定される確率分布として定式化する。次に、次に起こりうる行動の複数の候補をサンプリングし、抽象的ゴールに整合性を持つ候補を評価するための「ゴール整合性評価指標(goal consistency measure)」を導入することで、最も適切な行動候補を選定する。本手法は、非常に困難なEpic-Kitchens55(EK55)、EK100、EGTEA Gaze+の各データセットにおいて、顕著な性能向上を達成した。特に、EK55の既知の台所(S1)設定において、トップ1語彙(Top-1 verb)、トップ1名詞(Top-1 noun)、トップ1行動予測(Top-1 action)の精度において、従来の最先端手法に対してそれぞれ+13.69、+11.24、+5.19の絶対的改善を達成した。同様に、未知の台所(S2)設定においても、トップ1語彙(+10.75)、名詞(+5.84)、行動(+2.87)の予測精度で顕著な向上が確認された。EGTEA Gaze+データセットにおいても同様の傾向が観察され、名詞、語彙、行動予測の各タスクで、それぞれ+9.9、+13.1、+6.8の絶対的改善が得られた。本論文の提出をもって、本手法はEK55およびEGTEA Gaze+における行動予測の新たな最先端(state-of-the-art)として認められている。結果の詳細は以下のCodalabコンペティションページにて確認可能:https://competitions.codalab.org/competitions/20071#results。コードはGitHubにて公開中:https://github.com/debadityaroy/Abstract_Goal