2ヶ月前

視覚関係検出における言語事前情報の利用

Cewu Lu; Ranjay Krishna; Michael Bernstein; Li Fei-Fei

要約

視覚関係は、画像内のオブジェクトのペア間で発生する多様な相互作用（例：「男性が自転車に乗っている」および「男性が自転車を押している」）を捉えます。したがって、可能な関係の集合は非常に大きく、すべての可能な関係に対して十分な学習例を得ることが困難です。この制約により、これまでの視覚関係検出に関する研究では、わずか数種類の関係のみを予測することに焦点を当ててきました。ほとんどの関係は頻度が低いものの、それらのオブジェクト（例：「男性」と「自転車」）と述語（例：「乗っている」と「押している」）は個別により頻繁に出現します。私たちは、この洞察を利用し、オブジェクトと述語を個別に訓練し、その後それらを組み合わせて1つの画像につき複数の関係を予測するモデルを提案します。我々のモデルは、意味的単語埋め込みから言語的な事前知識を利用することで、予測された関係の尤度を微調整し、先行研究よりも改善しています。このモデルは少数の例から数千種類の関係を予測できるようにスケーリングできます。さらに、予測された関係内のオブジェクトを画像内のバウンディングボックスとして局所化します。私たちはまた、関係性の理解がコンテンツベースの画像検索を改善できることを示しています。