HyperAIHyperAI

Command Palette

Search for a command to run...

オーディオビジュアルマスク自動符号化器

Mariana-Iuliana Georgescu Eduardo Fonseca Radu Tudor Ionescu Mario Lucic Cordelia Schmid Anurag Arnab

概要

動画にすでに含まれる音声視覚情報を利用することで、自己教師付き表現学習を改善できるだろうか?この問いに答えるために、自然言語および画像理解分野で成功を収めた類似手法を参考に、マスクされた自己符号化(masked autoencoding)フレームワーク内でのさまざまな事前学習アーキテクチャおよび目的関数を検討した。その結果、音声視覚同時下流分類タスクにおいて顕著な性能向上が達成でき、VGGSoundおよびAudioSetにおいて既存の最先端技術を上回ることを示した。さらに、単一の音声視覚事前学習モデルを用いて、複数の単モーダル下流タスクに応用可能であることを実証した。また、我々の表現の転移可能性も確認し、Epic Kitchensにおいて特にこのデータセット向けに事前学習を行わずに、最先端の音声視覚性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています