2ヶ月前
動詞と副詞の文脈関係を測定して行動変化を学習する
Davide Moltisanti; Frank Keller; Hakan Bilen; Laura Sevilla-Lara

要約
本研究の目的は、ビデオ内で動作がどのように行われるかを理解することである。すなわち、与えられたビデオに対して、動作に適用される修飾を示す副詞(例:「細かく」切る)を予測することを目指している。この問題を回帰タスクとして定式化する。動詞と副詞の間のテキスト的な関係性を測定し、学習したい動作変化を表す回帰目標を生成する。我々のアプローチは複数のデータセットで検証され、副詞予測と反意語分類において最先端の結果を達成した。さらに、テスト時に動作ラベルが利用可能であるという一般的な前提条件や、副詞が反意語としてペアリングされているという前提条件を取り払った場合でも、以前の研究よりも優れた性能を発揮した。既存の副詞認識用データセットは、学習が困難になるようなノイズが多いか、または副詞によって外見が影響を受けない動作を含んでおり評価が信頼性を欠く傾向にある。これを解決するために、新しい高品質データセット「レシピにおける副詞(Adverbs in Recipes: AIR)」を集めた。AIRでは指示的な料理ビデオに焦点を当て、異なる方法で実行されたときに意味のある視覚的変化を見せる一連の動作を選定した。AIR内のビデオはより厳密に編集されており、複数のアノテーターによる手動レビューを通じて高いラベリング品質が確保されている。結果は、モデルがAIRからより効果的に学習できることを示しており、そのクリーンなビデオのおかげであることが確認された。同時に、AIRでの副詞予測は難易度が高いことが示されており、改善の余地があることを示唆している。