6ヶ月前

概要

対照的言語-画像事前学習（CLIP）は、さまざまな画像タスクにおいて顕著な成果を示している。しかし、CLIPを効果的な時系列モデリングで拡張する方法は、依然として未解決であり、極めて重要な課題である。既存の分離的または統合的な空間時系列モデリング手法は、効率性と性能の間にトレードオフを生じている。文献では、直列的なタブ状構造内での時系列情報のモデリングが広く採用されているが、本研究では、単純なフレーム同期が時系列アテンションを用いずに十分な本質を捉えられることを発見した。この観察に基づき、本論文では、時系列モデリングの負荷を最小限に抑えつつ、非常に高い性能を達成する新しい「implicit learnable alignment（ILA）」手法を提案する。具体的には、フレームペアに対して各フレーム内に相互情報量の高い領域を示すインタラクティブポイントを予測し、その周囲の特徴量を強化することで、2つのフレームを暗黙的に整合させる。整合された特徴量は、その後1つのトークンにプーリングされ、以降の空間自己アテンションに利用される。本手法により、動画処理における高コストまたは不十分な時系列自己アテンションを排除することが可能となる。標準ベンチマーク上での広範な実験により、本モジュールの優位性と汎用性が実証された。特に、Swin-LおよびViViT-Hと比較して、はるかに少ないFLOPsでKinetics-400データセットにおいてトップ1精度88.7％を達成した。コードは https://github.com/Francis-Rings/ILA にて公開されている。

ソースPDF