
要約
視覚的属性に関する相対的属性(relative attributes)に関する広範な研究は、視覚的属性の強度に関する連続体に沿って画像のペアを関連付けることで、視覚分野における多様なタスクにおいて顕著な性能向上が得られることを強く示している。本論文では、グラフニューラルネットワーク(GNN)における新興のアイデアが、相対的属性学習に広く分類されるさまざまな問題に対して統一的な解決策を提供できることを示す。本研究の核心的な洞察は、画像の異なる相対的属性間の依存関係のグラフィカル構造を活用することで、相対的属性学習が自然に恩恵を受けることである。特に、学習データに相対的属性の部分順序(partial ordering)しか与えられていない状況において、この利点は顕著になる。我々は、確率的グラフィカルモデル上でのメッセージパッシングを用いて、画像の表現、それらの関係性、および異なる属性間の相互作用を、与えられたアノテーションと最も整合するように、エンド・ツー・エンドで学習する。実験の結果、このシンプルなエンド・ツー・エンド学習フレームワーク(GNNを用いる)は、相対的属性学習および二値属性予測の専門的手法と比較しても競争力のある精度を達成する一方で、学習データの要件やパラメータ数、あるいはその両方を大幅に緩和できることを示した。