HyperAIHyperAI

Command Palette

Search for a command to run...

マルチモーダル行動予測のための予見的特徴融合Transformer

Zeyun Zhong David Schneider Michael Voit Rainer Stiefelhagen Jürgen Beyerer

概要

人間の行動予測は本質的にマルチモーダルなタスクであるにもかかわらず、代表的な行動予測データセットにおける最先端手法は、アンサンブル法を用いて単モーダル予測ネットワークのスコアを平均化することで、このマルチモーダルデータを活用している。本研究では、早期段階でマルチモーダルデータを統合する、Transformerを基盤とするモーダリティ統合手法を提案する。我々が開発した予測的特徴統合Transformer(Anticipative Feature Fusion Transformer, AFFT)は、一般的なスコア統合手法を上回る性能を示し、EpicKitchens-100およびEGTEA Gaze+において、従来の手法を凌駕する最先端の結果を達成した。本モデルは容易に拡張可能であり、アーキテクチャの変更なしに新たなモーダリティを追加できる。これにより、EpicKitchens-100データセット上で音声特徴を抽出し、コミュニティで一般的に用いられている特徴セットに追加することに成功した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています