2ヶ月前

協調変換器を用いた状況認識の接地

Cho, Junhyeong ; Yoon, Youngseok ; Kwak, Suha
協調変換器を用いた状況認識の接地
要約

状況認識の接地(Grounded Situation Recognition)は、与えられた画像における主な活動を予測し、その活動の中で特定の役割を果たすエンティティと、それらのエンティティのバウンディングボックスの接地を特定するタスクである。この挑戦的な課題に対処するために、我々は活動分類とエンティティ推定の2つのプロセスが相互作用的かつ補完的な新しいアプローチを提案する。このアイデアを実現するために、我々はコラボレーティブ・グラーンス・ゲイズ・トランスフォーマー(Collaborative Glance-Gaze Transformer, CoFormer)を提案する。CoFormerは、グラーンス・トランスフォーマー(Glance Transformer)とゲイズ・トランスフォーマー(Gaze Transformer)という2つのモジュールから構成されている。グラーンス・トランスフォーマーは、ゲイズ・トランスフォーマーがエンティティとその関係を分析することにより、主な活動を予測する。一方、ゲイズ・トランスフォーマーは、グラーンス・トランスフォーマーによって予測された活動に関連するエンティティにのみ焦点を当てて、接地されたエンティティを推定する。我々のCoFormerはSWiGデータセットにおいてすべての評価指標で最先端の性能を達成している。訓練コードとモデルの重みはhttps://github.com/jhcho99/CoFormerで入手可能である。

協調変換器を用いた状況認識の接地 | 最新論文 | HyperAI超神経