16日前

状況認識:画像理解のための視覚的意味役割ラベリング

{Luke Zettlemoyer, Ali Farhadi, Mark Yatskar}
状況認識:画像理解のための視覚的意味役割ラベリング
要約

本論文では、画像が示す状況を簡潔に要約する「状況認識(situation recognition)」という問題を紹介する。具体的には、(1)主な行動(例:剪定)、(2)参加するエージェント(人物)、物体、物質、場所(例:男、はさみ、羊、羊毛、畑)を含み、特に重要なのは(3)これらの参加者が行動において果たす役割(例:男は剪定している、はさみは彼の道具である、羊毛は羊から剪定されている、剪定は畑で行われている)を特定することである。本研究では、言語学者によって開発された動詞と役割の語彙体系であるFrameNetを用いて、多様な可能な状況の空間を定義し、500以上の行動、1,700以上の役割、11,000以上の物体、125,000枚以上の画像、200,000以上の固有の状況を含む大規模データセットを構築した。また、構造化予測のベースラインを提案し、行動中心の画像において、状況に基づく物体および行動の予測が、独立した物体認識と行動認識よりも優れた性能を発揮することを示した。

状況認識:画像理解のための視覚的意味役割ラベリング | 最新論文 | HyperAI超神経