2ヶ月前

深層学習を用いた細かい視覚的説明の表現の学習

Scott Reed; Zeynep Akata; Bernt Schiele; Honglak Lee
深層学習を用いた細かい視覚的説明の表現の学習
要約

最新手法のゼロショット視覚認識では、学習を画像と補助情報の共通埋め込み問題として定式化しています。これらの定式化において、現在の最高の視覚特徴量の補完は属性です:カテゴリ間の共有特性を記述する手動でエンコードされたベクトルです。性能が良いものの、属性には以下のような制限があります:(1) 細かい認識にはそれに見合った数の属性が必要であり、(2) 属性は自然言語インターフェースを提供しません。これらの制限を克服するために、私たちはニューラル言語モデルをスクラッチから訓練することを提案します;すなわち、事前訓練なしで単に単語と文字のみを使用して訓練します。提案したモデルはエンドツーエンドで訓練され、画像の細かい粒度とカテゴリ固有の内容に合わせて整列します。自然言語は、カテゴリー間の区別に必要な重要な視覚的な側面のみを柔軟かつコンパクトにエンコードする方法を提供します。生テキストでの訓練により、私たちのモデルは生テキストでの推論も可能となり、人間にとって馴染みのあるアノテーションや検索モードを提供します。私たちのモデルはゼロショットテキストベース画像検索で優れた性能を達成し、Caltech UCSD Birds 200-2011 データセットにおけるゼロショット分類に関して属性ベースの最先端手法よりも大幅に優れています。

深層学習を用いた細かい視覚的説明の表現の学習 | 最新論文 | HyperAI超神経