12日前
画像ストリームからのストーリーテリング:シーングラフを用いたアプローチ
{Xuanjing Huang, Qi Zhang, Piji Li, Zhongyu Wei, Ruize Wang}
要約
視覚的ストーリーテリングは、画像ストリームから物語を生成することを目的としている。既存の大多数の手法は、抽出された高レベル特徴を直接画像表現に用いるが、これは直感的ではなく、解釈が困難である。本研究では、各画像をグラフベースの意味表現、すなわちシーングラフに変換することで、画像に含まれる物体およびそれらの関係を明示的に符号化することにより、画像の表現と記述がより効果的になると主張する。この目的の下、シーングラフ上の二段階の関係をモデル化する新たなグラフベースのアーキテクチャを提案する。具体的には、画像内レベルでは、グラフ畳み込みネットワーク(GCN)を用いて、シーングラフ上の物体の局所的な細粒度領域表現を強化する。さらに画像間の相互作用をモデル化するため、画像間レベルでは時系列畳み込みネットワーク(TCN)を活用し、時間軸に沿って領域表現を精緻化する。その後、関係に注意を払った表現は、アテンション機構を備えたゲート付き再帰ユニット(GRU)に投入され、物語生成が行われる。本手法は公開の視覚的ストーリーテリングデータセットを用いて実験を行い、自動評価および人間評価の両方において、最先端の性能を達成していることが示された。