HyperAIHyperAI

Command Palette

Search for a command to run...

自然言語オブジェクト検索

Ronghang Hu Huazhe Xu Marcus Rohrbach Jiashi Feng Kate Saenko Trevor Darrell

概要

本論文では、自然言語オブジェクト検索のタスクに取り組みます。これは、画像内の対象オブジェクトを自然言語クエリに基づいて局所化するためのものです。自然言語オブジェクト検索は、テキストベースの画像検索タスクとは異なり、シーン内のオブジェクトに関する空間情報と全体的なシーンコンテキストを含むためです。この問題に対処するために、我々は新しい空間コンテキスト再帰型畳み込みニューラルネットワーク(Spatial Context Recurrent ConvNet: SCRC)モデルを提案します。このモデルは、候補ボックスに対するスコアリング関数として使用され、空間構成と全体的なシーンレベルのコンテキスト情報をネットワークに統合します。我々のモデルは、クエリテキスト、局所画像記述子、空間構成および全体的なコンテキスト特徴を再帰型ネットワークを通じて処理し、各候補ボックスがクエリテキストに条件付けられた確率を出力します。これにより、ボックスのスコアが決定されます。また、本モデルは画像キャプショニング領域から視覚-言語知識を転移させることが可能です。実験結果は、我々の手法が局所情報と全体情報双方を効果的に利用しており、異なるデータセットやシナリオにおいて従来の基準手法を大幅に上回っていることを示しています。さらに、大規模な視覚と言語データセットを利用して知識転移を行うことができます。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています