9日前
マルチモーダル行動予測のための予見的特徴融合Transformer
Zeyun Zhong, David Schneider, Michael Voit, Rainer Stiefelhagen, Jürgen Beyerer

要約
人間の行動予測は本質的にマルチモーダルなタスクであるにもかかわらず、代表的な行動予測データセットにおける最先端手法は、アンサンブル法を用いて単モーダル予測ネットワークのスコアを平均化することで、このマルチモーダルデータを活用している。本研究では、早期段階でマルチモーダルデータを統合する、Transformerを基盤とするモーダリティ統合手法を提案する。我々が開発した予測的特徴統合Transformer(Anticipative Feature Fusion Transformer, AFFT)は、一般的なスコア統合手法を上回る性能を示し、EpicKitchens-100およびEGTEA Gaze+において、従来の手法を凌駕する最先端の結果を達成した。本モデルは容易に拡張可能であり、アーキテクチャの変更なしに新たなモーダリティを追加できる。これにより、EpicKitchens-100データセット上で音声特徴を抽出し、コミュニティで一般的に用いられている特徴セットに追加することに成功した。