HyperAIHyperAI

Command Palette

Search for a command to run...

画像からビデオ変換器への双方向適応

Jungin Park Jiyoung Lee Kwanghoon Sohn

概要

本論文では、ViTやSwinなどの視覚基盤モデルの優れた表現力を、訓練可能なパラメータをわずかに用いることで動画理解に効率的に転送する方法を提案します。従来の適応手法は、空間と時間のモデリングを統一された学習可能なモジュールで同時に考慮していましたが、画像トランスフォーマーの表現能力を十分に活用できていませんでした。私たちは、動画モデルで一般的に使用されている双方向(二ストリーム)アーキテクチャがこの問題を緩和できると考えています。そこで、空間適応パスと時間適応パスに分離した新しいDualPath適応手法を提案します。各トランスフォーマーブロックには軽量なボトルネックアダプターが用いられます。特に時間的な動的モデリングにおいては、連続フレームをグリッド状のフレームセットに組み込むことで、トークン間の関係性を推定する視覚トランスフォーマーの能力を正確に模倣します。さらに、動画理解における複数のベースラインについて統一的な観点から広範囲に調査し、DualPathとの比較を行います。4つの行動認識ベンチマークでの実験結果は、事前学習された画像トランスフォーマーにDualPathを使用することで、データドメインを超えて効果的に汎化できることが証明されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
画像からビデオ変換器への双方向適応 | 記事 | HyperAI超神経