
合成画像検索は、コンテンツベースの画像検索システムを拡張し、ユーザーが参照画像とその意図を説明するキャプションを使用して検索できるようにします。画像とテキストの合成器の開発において大きな進歩が見られる一方で、我々はこれまで見落とされてきた問題、すなわち三重項の曖昧性(triplet ambiguity)を特定しました。この三重項の曖昧性は、参照画像、関連キャプション、および目標画像の間に生じる意味的な曖昧性を指し、主に注釈されたテキストの表現力の限界により引き起こされます。これにより多くのノイジーな三重項が生成され、視覚的に異なる複数の候補画像が同一の参照ペア(つまり、参照画像 + 関連キャプション)に一致してしまうことがあります。この課題に対処するために、我々は心理的な概念であるグループが個々の人間よりも優れているという考えに基づいて提案したコンセンサスネットワーク(Css-Net)を導入します。Css-Netは2つの主要な構成要素から成り立っています。(1) 4つの異なる合成器を持つコンセンサスモジュールで、それぞれ異なる画像-テキスト埋め込みを生成し、相互補完的な特徴抽出を促進するとともに、単一の偏った可能性のある合成器への依存を軽減します。(2) クルバック・ライブラーダイバージェンス損失で、各合成器間での相互作用学習を促進し、合意形成された出力を推奨します。評価時には、4つの合成器からの決定がウェイト付けスキームを通じて統合され、全体的な合意度が向上します。ベンチマークデータセットにおいて特にFashionIQで Css-Netは顕著な改善を示しており、R@10では2.77%増加し、R@50では6.67%向上しています。これらの結果は既存手法における根本的な制約に対する競争力があることを強調しています。