2ヶ月前
訓練なしドメイン変換のための合成画像検索
Nikos Efthymiadis; Bill Psomas; Zakaria Laskar; Konstantinos Karantzalos; Yannis Avrithis; Ondřej Chum; Giorgos Tolias

要約
本研究は、ドメイン変換の文脈における合成画像検索に焦点を当てています。クエリ画像の内容が、クエリテキストで指定されたドメイン内で検索されるという問題を取り扱っています。我々は、強力なビジョン言語モデルが追加の学習なしに十分な記述力を提供することを示しています。クエリ画像は、テキスト的な逆転換(textual inversion)を使用してテキスト入力空間にマッピングされます。一般的な手法では連続的なテキストトークン空間での逆転換を行いますが、我々は離散的な単語空間を用いて、テキストボキャブラリー内の最近傍探索によりマッピングを行います。この逆転換により、画像はボキャブラリー全体に対してソフトマッピングされ、検索ベースの拡張によってより堅牢性が向上します。データベースの画像は、マッピングされた単語とドメインテキストを組み合わせた重み付けアンサンブルによるテキストクエリによって検索されます。我々の方法は、標準的なベンチマークだけでなく新規導入されたベンチマークにおいても、従来の手法を大幅に上回る性能を示しています。コード: https://github.com/NikosEfth/freedom