HyperAIHyperAI

Command Palette

Search for a command to run...

自己監督型音響視覚表現学習における緩和されたクロスモーダル同期性

Pritam Sarkar Ali Etemad

概要

私たちは、音声-視覚表現を学習するための自己監督フレームワークであるCrissCrossを提案します。当該フレームワークでは、モーダル間および標準的な「同期」クロスモーダル関係に加えて、新たに「非同期」クロスモーダル関係も学習するという革新的な概念が導入されています。詳細な研究を通じて、音声と視覚モーダルの時間的同期性を緩和することで、ネットワークは多様な下流タスクに有用な強力な一般化表現を学習することが示されています。提案されたソリューションの事前学習には、Kinetics-Sound、Kinetics400、AudioSetの3つの異なるサイズのデータセットを使用しました。学習した表現は、行動認識、音声分類、行動検索といった数々の下流タスクで評価されました。実験結果は、UCF101およびHMDB51での行動認識と行動検索において、CrissCrossが現行の最先端自己監督方法に匹敵または優れた性能を達成し、ESC50およびDCASEでの音声分類でも同様の結果を得ていることを示しています。さらに、Kinetics-Sound上で事前学習した場合、CrissCrossは完全監督による事前学習を上回る性能を発揮します。本プロジェクトに関連するコードと事前学習済みモデルはプロジェクトウェブサイトで公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています