2ヶ月前

視覚関係検出のための視覚翻訳埋め込みネットワーク

Hanwang Zhang; Zawlin Kyaw; Shih-Fu Chang; Tat-Seng Chua
視覚関係検出のための視覚翻訳埋め込みネットワーク
要約

視覚関係(例:「人が自転車に乗る」、「自転車が車の隣にある」)は画像の包括的なシーン理解を提供し、すでにコンピュータビジョンと自然言語処理の接続においてその有用性を示しています。しかし、主語-述語-目的語の関係三項組をモデル化する際の組み合わせ的な複雑さという課題により、視覚関係の局所化と予測に関する研究はほとんど行われていません。知識ベースの関係表現学習や畳み込み物体検出ネットワークにおける最近の進歩に触発され、我々は視覚関係検出用の視覚翻訳埋め込みネットワーク(VTransE)を提案します。VTransEは物体を低次元の関係空間に配置し、関係を単純なベクトル翻訳としてモデル化します。つまり、主語 + 述語 ≈ 目的語です。我々は新たな特徴抽出層を提案しており、この層は完全畳み込み方式で物体-関係間の知識転送を可能にし、単一の前向き/後ろ向き伝播で訓練と推論をサポートします。当該研究者らが知る限り、VTransEは最初の一貫した関係検出ネットワークです。我々は大規模データセット2つ(Visual RelationshipおよびVisual Genome)上で他の最先端手法に対するVTransEの有効性を示しています。なお、VTransEが純粋な視覚モデルであるにもかかわらず、言語事前情報を持つLu氏の多モーダルモデルと競争力があることを指摘しておきます。

視覚関係検出のための視覚翻訳埋め込みネットワーク | 最新論文 | HyperAI超神経