HyperAIHyperAI

Command Palette

Search for a command to run...

視覚関係検出における言語事前情報の利用

Cewu Lu; Ranjay Krishna; Michael Bernstein; Li Fei-Fei

概要

視覚関係は、画像内のオブジェクトのペア間で発生する多様な相互作用(例:「男性が自転車に乗っている」および「男性が自転車を押している」)を捉えます。したがって、可能な関係の集合は非常に大きく、すべての可能な関係に対して十分な学習例を得ることが困難です。この制約により、これまでの視覚関係検出に関する研究では、わずか数種類の関係のみを予測することに焦点を当ててきました。ほとんどの関係は頻度が低いものの、それらのオブジェクト(例:「男性」と「自転車」)と述語(例:「乗っている」と「押している」)は個別により頻繁に出現します。私たちは、この洞察を利用し、オブジェクトと述語を個別に訓練し、その後それらを組み合わせて1つの画像につき複数の関係を予測するモデルを提案します。我々のモデルは、意味的単語埋め込みから言語的な事前知識を利用することで、予測された関係の尤度を微調整し、先行研究よりも改善しています。このモデルは少数の例から数千種類の関係を予測できるようにスケーリングできます。さらに、予測された関係内のオブジェクトを画像内のバウンディングボックスとして局所化します。私たちはまた、関係性の理解がコンテンツベースの画像検索を改善できることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています