3ヶ月前

帰因可能な視覚的類似性学習

Borui Zhang, Wenzhao Zheng, Jie Zhou, Jiwen Lu
帰因可能な視覚的類似性学習
要約

本稿では、画像間の類似度をより正確かつ説明可能に測定するための帰属可能な視覚的類似度学習(Attributable Visual Similarity Learning, AVSL)フレームワークを提案する。既存の類似度学習手法の多くは、各サンプルを埋め込み空間内の単一の点にマッピングし、距離尺度(例:マハラノビス距離、ユークリッド距離)を用いることで、類似度の解釈可能性を低下させてしまう。人間の意味的類似度認知に着目し、二つの画像間の類似度をグラフとして表現する汎用的な類似度学習パラダイムを提案する。さらに、意味階層の一貫性を基に、下位から上位への類似度構築と上位から下位への類似度推論を統合したフレームワークを構築した。具体的には、信頼性の低い上位レベルの類似度ノードを特定し、最も整合性の高い隣接する下位レベルの類似度ノードを用いて修正することで、類似度の帰属性を同時に保持する。CUB-200-2011、Cars196、Stanford Online Productsの3つのデータセットにおける広範な実験により、従来の深層類似度学習手法と比較して顕著な性能向上が確認され、本フレームワークの解釈可能性も実証された。コードは https://github.com/zbr17/AVSL で公開されている。