
要約
有名な単語類推実験は、最近の単語ベクトルが線形ベクトルオフセットによって単語内の微細な言語的規則性を捉えていることを示しています。しかし、単純なベクトルオフセットが視覚的な規則性をどの程度符号化できるかは明確ではありません。本論文では、特定の画像-単語関連性について研究します。我々の結果は、与えられた画像に関連するタグの単語ベクトルが、非関連タグよりも主方向に沿って高い順位を占めることを示しています。この観察に基づいて、我々は画像の主方向を推定することで画像タギングを解決することを提案します。特に、線形写像と非線形深層ニューラルネットワークを使用して、入力画像から主方向を近似します。これにより非常に汎用的なタギングモデルが得られます。テスト画像に対して一定時間で高速に動作し、学習データセットのサイズに関わらず一定時間で処理できます。このモデルはNUS-WIDEデータセットにおける従来のタギングタスクにおいて優れた性能を発揮するだけでなく、未見のタグを持つ画像の注釈付けでも競合する基準モデルを上回ります。