
要約
既存の大多数の予測システムは記憶ベースの手法であり、さまざまな記憶メカニズムを用いて人間の予測能力を模倣しようと試みています。これらの手法は、時間的な依存関係のモデリングにおいて進歩してきましたが、明確な弱点として、限られた歴史的な依存関係しかモデル化できず、過去を超えることができないことが挙げられます。本論文では、イベント進化の時間的依存関係を見直し、過去、現在、未来を含む全体的な時間構造をモデル化する新しい記憶・予測ベースのパラダイムを提案します。このアイデアに基づき、オンラインアクション検出と予測タスクに対処するための記憶・予測ベースの手法である Memory-and-Anticipation Transformer (MAT) を提示します。さらに、MAT の内在的な優位性により、オンラインアクション検出と予測タスクを統一的に処理することができます。提案された MAT モデルは、TVSeries, THUMOS'14, HDD, および EPIC-Kitchens-100 という4つの困難なベンチマークでオンラインアクション検出と予測タスクにテストされ、既存のすべての方法を大幅に上回る性能を示しました。コードは https://github.com/Echo0125/Memory-and-Anticipation-Transformer で入手可能です。