Command Palette
Search for a command to run...
高速ゼロショット画像タグ付け
高速ゼロショット画像タグ付け
Zhang Yang Gong Boqing Shah Mubarak
概要
有名な単語アナロジー実験から、最近の単語ベクトルが線形ベクトルオフセットによって単語間の微細な言語的規則性を捉えていることが示されているが、単純なベクトルオフセットが単語間の視覚的規則性をどの程度表現できるかは明らかでない。本研究では、特定の画像-単語関連性関係に着目する。得られた結果から、ある画像に関連するタグの単語ベクトルは、単語ベクトル空間内の主方向に沿って、関連しないタグのベクトルよりも高い順位に並ぶことが明らかになった。この観察に基づき、画像に対して主方向を推定することで画像タグ付けを実現する手法を提案する。特に、入力画像から主方向を近似するために線形写像と非線形な深層ニューラルネットワークを活用する。その結果、非常に汎用性の高いタグ付けモデルが得られた。テスト画像に対しては、学習データセットのサイズに依存せずに定数時間で処理が可能であり、高速に動作する。本手法はNUS-WIDEデータセットにおける従来のタグ付けタスクにおいて優れた性能を発揮するだけでなく、未観測のタグを用いた画像のアノテーションにおいても、競合手法を上回る結果を示した。