2ヶ月前
状況認識の基礎付け
Pratt, Sarah ; Yatskar, Mark ; Weihs, Luca ; Farhadi, Ali ; Kembhavi, Aniruddha
要約
私たちはGrounded Situation Recognition(GSR)というタスクを紹介します。このタスクでは、画像の構造化された意味的な要約を作成し、主な活動、その活動に参加するエンティティとその役割(例:エージェント、ツール)、そしてエンティティのバウンディングボックスの位置情報を特定することが求められます。GSRは重要な技術的課題を呈しています:意味的注目度の識別、多様で多数のエンティティの分類と局所化、意味的希薄性の克服、および役割の曖昧性解消です。さらに、キャプション生成とは異なり、GSRは評価が容易です。この新しいタスクを研究するために、imsituデータセットに含まれる11,538クラスのエンティティに対して278,336個のバウンディングボックス位置情報を追加したSituations With Groundings(SWiG)データセットを作成しました。私たちはJoint Situation Localizerを提案し、エンドツーエンドでの学習によって状況と位置情報を同時予測することで、独立した学習よりも全体的な位置情報評価指標において相対的に8%から32%の改善が見られることを示しました。最後に、私たちのモデルによって可能となる三つの魅力的な将来方向性について初期的な結果を示します:条件付きクエリング、視覚的チェインニング、および位置情報に基づく意味認識画像検索です。コードとデータはhttps://prior.allenai.org/projects/gsrで入手可能です。