9日前
意味的にガイドされた表現学習による行動予測
Anxhelo Diko, Danilo Avola, Bardh Prenkaj, Federico Fontana, Luigi Cinque

要約
アクション予測とは、部分的に観測されたイベント系列から将来の行動を予測するタスクである。しかし、このタスクは内在的な将来の不確実性や、相互に関連する行動に対する推論の難しさに直面している。従来の研究が視覚的・時系列的情報のより良い外挿に注力しているのに対し、本研究では、代表的な行動パターンおよび文脈的な共起性に基づいて、行動の意味的連関性を意識した行動表現の学習に焦点を当てる。この目的のため、新たな意味的ガイド付き表現学習フレームワークであるSemantically Guided Representation Learning(S-GEAR)を提案する。S-GEARは視覚的行動の代表パターンを学習し、言語モデルを活用してそれらの関係性を構造化することで、意味的特徴を導入する。S-GEARの有効性を検証するため、4つのアクション予測ベンチマークで実験を行い、従来手法と比較して優れた結果を得た。具体的には、Epic-Kitchen 55、EGTEA Gaze+、50 SaladsにおけるTop-1 Accuracyでそれぞれ+3.5、+2.7、+3.5の絶対的向上を達成し、Epic-Kitchens 100ではTop-5 Recallで+0.8の向上が確認された。さらに、S-GEARが言語から視覚的プロトタイプへと行動間の幾何的関連性を効果的に転移できることを観察した。最終的に、S-GEARは行動の意味的連関性が予測タスクに与える複雑な影響を示すことで、新たな研究のフロンティアを開拓した。