HyperAIHyperAI

Command Palette

Search for a command to run...

動画認識における学習可能アライメントを用いた暗黙的時系列モデリング

Shuyuan Tu Qi Dai Zuxuan Wu Zhi-Qi Cheng Han Hu Yu-Gang Jiang

概要

対照的言語-画像事前学習(CLIP)は、さまざまな画像タスクにおいて顕著な成果を示している。しかし、CLIPを効果的な時系列モデリングで拡張する方法は、依然として未解決であり、極めて重要な課題である。既存の分離的または統合的な空間時系列モデリング手法は、効率性と性能の間にトレードオフを生じている。文献では、直列的なタブ状構造内での時系列情報のモデリングが広く採用されているが、本研究では、単純なフレーム同期が時系列アテンションを用いずに十分な本質を捉えられることを発見した。この観察に基づき、本論文では、時系列モデリングの負荷を最小限に抑えつつ、非常に高い性能を達成する新しい「implicit learnable alignment(ILA)」手法を提案する。具体的には、フレームペアに対して各フレーム内に相互情報量の高い領域を示すインタラクティブポイントを予測し、その周囲の特徴量を強化することで、2つのフレームを暗黙的に整合させる。整合された特徴量は、その後1つのトークンにプーリングされ、以降の空間自己アテンションに利用される。本手法により、動画処理における高コストまたは不十分な時系列自己アテンションを排除することが可能となる。標準ベンチマーク上での広範な実験により、本モジュールの優位性と汎用性が実証された。特に、Swin-LおよびViViT-Hと比較して、はるかに少ないFLOPsでKinetics-400データセットにおいてトップ1精度88.7%を達成した。コードは https://github.com/Francis-Rings/ILA にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
動画認識における学習可能アライメントを用いた暗黙的時系列モデリング | 記事 | HyperAI超神経