HyperAIHyperAI

Command Palette

Search for a command to run...

実際の画像に対する事前学習済み視覚言語モデルを用いた画像検索

Zheyuan Liu Cristian Rodriguez-Opazo Damien Teney Stephen Gould

概要

合成画像検索の課題を拡張し、入力クエリが画像とその画像をどのように変更するかの短いテキスト説明から構成されるものとします。既存の手法は、ファッション製品などの狭い領域内の非複雑な画像にのみ適用されており、豊かな画像と言語の文脈における深層的な視覚的推論に関する研究範囲が制限されています。この問題に対処するために、我々はCompose Image Retrieval on Real-life images (CIRR) データセットを収集しました。このデータセットには、36,000組以上のクラウドソーシングされたオープンドメインの画像と人間によって生成された変更テキストが含まれています。既存の手法をオープンドメインに拡張するために、我々はCIRPLANTというモデルを提案します。これは、事前学習された視覚-言語 (V&L) 知識を利用し、自然言語に基づいて視覚特徴を変更する条件付きで動作するトランスフォーマーベースのモデルです。検索は、変更後の特徴量に対する最近傍探索によって行われます。比較的単純なアーキテクチャを使用することで、CIRPLANTはオープンドメインの画像において既存の手法を上回りつつ、ファッションなどの既存の狭いデータセットでは最先端の精度に匹敵することが示されました。CIRRデータセットの公開とともに、本研究が合成画像検索に関するさらなる研究を促進することを信じています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています