HyperAIHyperAI

Command Palette

Search for a command to run...

音声と映像モデルの協調学習:自己監督同期からの学習

Bruno Korbar Du Tran Lorenzo Torresani

概要

ビデオの視覚要素と聴覚要素の間に自然な相関関係があります。本研究では、この関連性を活用し、自己監督型時間同期から音声および映像解析の一般的かつ効果的なモデルを学習します。実験結果から、調整されたカリキュラム学習スキーム、ネガティブサンプルの慎重な選択、およびコントラスティブ損失の使用が、音声-映像ペアの時間同期を識別する最適化モデルから強力な多感覚表現を得るための重要な要素であることが示されました。さらに微調整せずに得られた音声特徴量は、確立された音声分類ベンチマーク(DCASE2014 および ESC-50)において最先端の性能に匹敵または優れた結果を達成しました。一方で、我々の視覚サブネットワークは、ビデオベースの行動認識モデルの精度向上に非常に効果的な初期化を提供します:ゼロからの学習と比較して、自己監督型事前学習により UCF101 での行動認識精度が +19.9% 向上し、HMDB51 では +17.7% の向上が見られました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
音声と映像モデルの協調学習:自己監督同期からの学習 | 記事 | HyperAI超神経