検索前にアライメント:正確なクロスモーダルスポンサードサーチのための広告画像とテキストのアライメント

クロスモーダルスポンサード検索は、ユーザーが検索エンジンで自然言語によるクエリで希望する商品を検索する際に、複数モーダル(画像・テキストなど)広告を表示する仕組みである。多モーダル広告は、クエリと広告のマッチングにおいて補完的な情報を提供するため、画像とテキストの両方から広告固有の情報を正確に統合(アライメント)する能力が、正確かつ柔軟なスポンサード検索の実現に不可欠である。従来の研究は、主に画像とテキスト間の潜在的な相関関係をモデル化する視点に立ってクエリ-広告マッチングを検討してきたが、具体的な製品情報のアライメントを無視しており、結果として最適な検索性能が得られなかった。本研究では、広告画像内の細粒度な視覚的パーツを、対応するテキスト要素に明示的にマッピングするシンプルなアライメントネットワークを提案する。この手法は、視覚空間と言語空間間の共起構造の一貫性を活用するため、高価なラベル付き学習データを必要としない。さらに、クロスモーダルアライメントとクエリ-広告マッチングを二段階の別々のプロセスで効果的に行う新しいモデルを構築した。このアプローチにより、多モーダル入力を同一の言語空間内でマッチング可能となり、学習データ量を半分に抑えた状態でも優れた性能を達成した。大規模な商用データセット上で、最先端モデルを2.57%上回る性能を実現した。本手法はスポンサード検索にとどまらず、一般的なクロスモーダル検索にも適用可能である。MSCOCOデータセット上で典型的なクロスモーダルリトリーバルタスクを実験した結果、一貫した性能向上が確認され、本手法の汎化能力が裏付けられた。実装コードは以下のGitHubページで公開されている:https://github.com/Pter61/AlignCMSS/