2ヶ月前

再考:基盤状況認識の二段階フレームワーク

Wei, Meng ; Chen, Long ; Ji, Wei ; Yue, Xiaoyu ; Chua, Tat-Seng
再考:基盤状況認識の二段階フレームワーク
要約

Grounded Situation Recognition (GSR)、すなわち画像中の目立つ活動(または動詞)のカテゴリーを認識(例:購入)し、それに対応するすべての意味役割を検出(例:行為者と商品)することは、「人間のような」イベント理解への重要なステップです。各動詞は特定の意味役割のセットに関連しているため、既存のすべてのGSR手法は2段階フレームワークに依存しています:第1段階で動詞を予測し、第2段階で意味役割を検出します。しかし、両段階には明確な欠点があります:1) 日常活動における大きなクラス内変動と高いクラス間類似性のために、オブジェクト認識で広く使用されているクロスエントロピー(XE)損失は動詞分類に十分ではありません。2) 全ての意味役割が自己回帰的に検出されるため、異なる役割間の複雑な意味関係をモデル化できていません。これらの問題を解決するために、我々は新しいSituFormerを提案します。これはCoarse-to-Fine Verb Model (CFVM)とTransformer-based Noun Model (TNM)から構成されています。CFVMは2段階の動詞予測モデルであり、最初にXE損失で訓練された粗粒度モデルが一連の動詞候補を提案し、次にtriplet損失で訓練された細粒度モデルが強化された動詞特徴量(分離可能かつ識別可能)を使用してこれらの候補を再順位付けします。TNMはtransformerベースの意味役割検出モデルであり、全ての役割を並列に検出します。transformerデコーダーの全体的な関係モデリング能力と柔軟性により、TNMは役割間の統計的依存関係を完全に探索できます。困難なSWiGベンチマークでの広範な検証により、SituFormerが様々な指標において大幅な改善をもたらし、新たな最先端性能を達成することが示されました。コードは https://github.com/kellyiss/SituFormer で利用可能です。

再考:基盤状況認識の二段階フレームワーク | 最新論文 | HyperAI超神経