2ヶ月前

XKD: モーダル間の知識蒸留とドメインアライメントを用いたビデオ表現学習

Pritam Sarkar; Ali Etemad
XKD: モーダル間の知識蒸留とドメインアライメントを用いたビデオ表現学習
要約

私たちはXKDという新しい自己教師なし学習フレームワークを提案します。このフレームワークは、ラベルの付いていない動画から意味のある表現を学習することを目指しています。XKDは2つの疑似目的を使用して訓練されます。まず、マスクされたデータの再構成が行われ、音響ストリームと視覚ストリームからモダリティ固有の表現を学習します。次に、教師-生徒設定を通じて2つのモダリティ間で自己教師なしクロスモーダル知識蒸留が行われ、補完的な情報を学習します。私たちは新たなドメインアライメント戦略を導入し、音響と視覚モダリティ間のドメイン差異に対処することで、効果的なクロスモーダル知識蒸留を可能にしました。さらに、音響と視覚ストリームの両方を処理できる汎用ネットワークを開発するために、同じ事前学習済みバックボーンを使用するモダリティ非依存型のXKD変種も導入しました。我々が提案するクロスモーダル知識蒸留は、UCF101、HMDB51、Kinetics400においてビデオアクション分類の精度を8%から14%向上させました。また、Kinetics-Soundではマルチモーダルアクション分類の精度を5.5%向上させました。XKDはESC50におけるサウンド分類で最先端の性能を示し、トップ1精度96.5%を達成しました。

XKD: モーダル間の知識蒸留とドメインアライメントを用いたビデオ表現学習 | 最新論文 | HyperAI超神経