3ヶ月前

画像群を物語として記述するためのVision Transformerベースのモデル

Zainy M. Malakan, Ghulam Mubashar Hassan, Ajmal Mian
画像群を物語として記述するためのVision Transformerベースのモデル
要約

視覚的ストーリーテリング(Visual Story-Telling)とは、複数の画像から複数文からなる物語を構成するプロセスである。入力画像内に含まれる視覚的変化および文脈情報の適切な統合は、視覚的ストーリーテリングにおいて最も困難な課題の一つである。その結果、画像群から生成される物語は、しばしば一貫性や関連性、意味的関係性に欠けるものとなる。本稿では、複数の画像を物語として記述するための新たな視覚変換器(Vision Transformer)ベースのモデルを提案する。本手法は、視覚変換器(ViT)を用いて入力画像の特徴を抽出する。まず、入力画像を16×16のパッチに分割し、展開されたパッチ群を線形投影として結合する。単一の画像を複数のパッチに変換するプロセスにより、入力視覚パターンの視覚的多様性が捉えられる。これらの特徴量は、シーケンスエンコーダの一部として用いられる双方向LSTM(Bidirectional-LSTM)に供給される。これにより、すべての画像パッチの過去および未来の文脈情報が捉えられる。その後、注意機構(attention mechanism)を導入し、言語モデル(Mogrifier-LSTM)に供給されるデータの識別能力を向上させる。提案モデルの性能は、視覚的ストーリーテリングデータセット(VIST)を用いて評価された結果、従来の最先端モデルを上回ることが示された。