2ヶ月前

「これは私のユニコーン、フワフワです」:冷凍された視覚言語表現のパーソナライズ

Niv Cohen; Rinon Gal; Eli A. Meirom; Gal Chechik; Yuval Atzmon
「これは私のユニコーン、フワフワです」:冷凍された視覚言語表現のパーソナライズ
要約

大規模なウェブデータで事前学習された大規模ビジョン&言語モデルは、多くのV&L問題において極めて重要な表現を提供します。しかし、これらのモデルが非構造化言語におけるユーザ固有の視覚概念について推論するためにどのように利用できるかは明確ではありません。この問題は、パーソナライズされた画像検索からスマートデバイスとのパーソナライズされた対話まで、様々な領域に現れます。私たちは、ユーザ固有の「パーソナライズされた」概念を「実世界」で検索およびセグメンテーションするための新しい学習設定であるパーソナライズドビジョン&言語(PerVL)と、2つの新しいベンチマークデータセットを導入します。PerVLでは、(1)ダウンストリームタスクとは独立して(2)自由な言語を使用して事前学習済みモデルがそれらについて推論できることを可能にし、(3)パーソナライズされた否定例を必要としないことが求められます。私たちは、事前学習済みモデルの入力語彙に新しい単語埋め込みを追加することで新規パーソナライズド概念に対応するアーキテクチャを提案します。これにより、モデルはそれらを文の中で単純に使用することで推論を行うことができます。我々の手法が少数の例からパーソナライズド視覚概念を学習し、豊富なテキストクエリを使用して画像検索や意味分割に効果的に適用できることを示しています。