HyperAI

概要

動画にすでに含まれる音声視覚情報を利用することで、自己教師付き表現学習を改善できるだろうか？この問いに答えるために、自然言語および画像理解分野で成功を収めた類似手法を参考に、マスクされた自己符号化（masked autoencoding）フレームワーク内でのさまざまな事前学習アーキテクチャおよび目的関数を検討した。その結果、音声視覚同時下流分類タスクにおいて顕著な性能向上が達成でき、VGGSoundおよびAudioSetにおいて既存の最先端技術を上回ることを示した。さらに、単一の音声視覚事前学習モデルを用いて、複数の単モーダル下流タスクに応用可能であることを実証した。また、我々の表現の転移可能性も確認し、Epic Kitchensにおいて特にこのデータセット向けに事前学習を行わずに、最先端の音声視覚性能を達成した。

概要

Mariana-Iuliana Georgescu Eduardo Fonseca Radu Tudor Ionescu Mario Lucic Cordelia Schmid Anurag Arnab

概要

AIでAIを構築

HyperAI Newsletters

Mariana-Iuliana Georgescu Eduardo Fonseca Radu Tudor Ionescu Mario Lucic Cordelia Schmid Anurag Arnab

概要

AIでAIを構築

HyperAI Newsletters

Mariana-Iuliana Georgescu Eduardo Fonseca Radu Tudor Ionescu Mario Lucic Cordelia Schmid Anurag Arnab

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

オーディオビジュアルマスク自動符号化器

Mariana-Iuliana Georgescu Eduardo Fonseca Radu Tudor Ionescu Mario Lucic Cordelia Schmid Anurag Arnab

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

オーディオビジュアルマスク自動符号化器

Mariana-Iuliana Georgescu Eduardo Fonseca Radu Tudor Ionescu Mario Lucic Cordelia Schmid Anurag Arnab

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

オーディオビジュアルマスク自動符号化器

Mariana-Iuliana Georgescu Eduardo Fonseca Radu Tudor Ionescu Mario Lucic Cordelia Schmid Anurag Arnab

概要

AIでAIを構築

HyperAI Newsletters