2ヶ月前
生の感覚入力から視覚的物体と話された言葉を共同で発見する
David Harwath; Adrià Recasens; Dídac Surís; Galen Chuang; Antonio Torralba; James Glass

要約
本論文では、音声キャプションのセグメントとそれらが指す自然画像の意味的に関連する部分を学習して関連付けるニューラルネットワークモデルについて探究します。我々は、これらの音声-視覚的な関連局所化が、画像と音声の検索タスクを学習する過程で副産物として得られるネットワーク内部表現から現れることを示します。我々のモデルは直接画像ピクセルと音声波形に作用し、訓練中にラベル、セグメンテーション、またはモダリティ間のアライメントといった従来の監督情報に依存しません。Places 205 および ADE20k データセットを使用した分析により、我々のモデルが暗黙的に意味的に結合された物体検出器と単語検出器を学習することを示しています。