
要約
機械学習モデルが現実世界のタスクを理解し解決できるようにするための鍵となる要因の一つは、マルチモーダルデータを活用することである。しかし、マルチモーダルデータのアノテーションは困難かつ高コストである。近年、視覚と言語を統合する自己教師付きマルチモーダル手法が提案され、アノテーションなしでマルチモーダル表現を学習する手法が実現された。しかし、これらの手法はしばしば高いノイズレベルを無視する傾向にあり、結果として最適な性能に届かない場合が多い。本研究では、マルチモーダルデータにおけるノイズ推定問題が、マルチモーダル密度推定問題に還元可能であることを示す。本手法では、異なるモダリティ間の固有の相関関係に基づき、厳密にマルチモーダル密度推定を用いたノイズ推定のブロックを提案する。このノイズ推定手法が、さまざまなマルチモーダル表現学習フレームワークに広く統合可能であり、Video Question Answering(動画質問応答)およびText-to-Video Retrieval(テキストから動画を検索)という2つの挑戦的なマルチモーダルタスクにおいて、5つの異なるベンチマークデータセットで最先端の性能と同等の結果を達成できることを実証する。さらに、実験結果を裏付ける理論的確率論的誤差バウンドを提示し、失敗ケースの分析も行う。コード: https://github.com/elad-amrani/ssml