2ヶ月前
多モーダルクラスタリングネットワークを用いたラベルなし動画からの自己監督学習
Chen, Brian ; Rouditchenko, Andrew ; Duarte, Kevin ; Kuehne, Hilde ; Thomas, Samuel ; Boggust, Angie ; Panda, Rameswar ; Kingsbury, Brian ; Feris, Rogerio ; Harwath, David ; Glass, James ; Picheny, Michael ; Chang, Shih-Fu

要約
マルチモーダル自己監督学習は、人間の監督なしで大規模なネットワークを訓練するだけでなく、さまざまなモーダル間でのデータ検索と取得も可能にするため、ますます注目を集めています。本稿では、異なるモーダル間で表現を共有するとともに、意味的に類似したインスタンスのグループ化を強制する共通のマルチモーダル埋め込み空間を学習する自己監督訓練フレームワークを提案します。この目的のために、インスタンスレベルのコントラスト学習の概念を訓練パイプライン内のマルチモーダルクラスタリングステップにより拡張し、モーダル間での意味的類似性を捉えることを目指しています。得られた埋め込み空間は、未見のデータセットや異なるドメインからでもすべてのモーダル間でのサンプル検索が可能となります。我々のアプローチを評価するために、HowTo100Mデータセット上でモデルを訓練し、そのゼロショット検索能力について2つの挑戦的なドメイン(テキスト-ビデオ検索および時間的アクション局所化)で評価を行いました。4つの異なるデータセットにおいて最先端の結果を示しています。