8ヶ月前

概要

合成画像検索の課題を拡張し、入力クエリが画像とその画像をどのように変更するかの短いテキスト説明から構成されるものとします。既存の手法は、ファッション製品などの狭い領域内の非複雑な画像にのみ適用されており、豊かな画像と言語の文脈における深層的な視覚的推論に関する研究範囲が制限されています。この問題に対処するために、我々はCompose Image Retrieval on Real-life images (CIRR) データセットを収集しました。このデータセットには、36,000組以上のクラウドソーシングされたオープンドメインの画像と人間によって生成された変更テキストが含まれています。既存の手法をオープンドメインに拡張するために、我々はCIRPLANTというモデルを提案します。これは、事前学習された視覚-言語 (V&L) 知識を利用し、自然言語に基づいて視覚特徴を変更する条件付きで動作するトランスフォーマーベースのモデルです。検索は、変更後の特徴量に対する最近傍探索によって行われます。比較的単純なアーキテクチャを使用することで、CIRPLANTはオープンドメインの画像において既存の手法を上回りつつ、ファッションなどの既存の狭いデータセットでは最先端の精度に匹敵することが示されました。CIRRデータセットの公開とともに、本研究が合成画像検索に関するさらなる研究を促進することを信じています。

ソースPDF コードを表示