17日前

LatteGAN：マルチターンテキスト条件付き画像操作における視覚誘導型言語アテンション

Shoya Matsumori, Yuki Abe, Kosuke Shingyouchi, Komei Sugiura, Michita Imai

要約

視覚と言語の分野において、テキストを用いた画像操作タスクが近年注目を集めている。既存の多くの研究は単一ターンの画像操作に焦点を当ててきたが、本論文の目的は、より困難なマルチターン画像操作（Multi-turn Image Manipulation, MTIM）タスクに取り組むことである。これまでのMTIM向けモデルは、順次提示される指示と以前に生成された画像を入力として、反復的に画像を生成する手法を採用している。しかし、このアプローチには、生成物の不足（under-generation）や、指示に記述されたオブジェクトの生成品質の低下という課題があり、結果として全体的な性能が低下する問題が生じている。これらの課題を克服するために、本研究では視覚的にガイドされた言語注意GAN（Visually Guided Language Attention GAN, LatteGAN）と呼ばれる新たなアーキテクチャを提案する。本手法では、従来のアプローチの限界を克服するため、生成器に細粒度なテキスト表現を抽出する「視覚的にガイドされた言語注意（Latte）モジュール」を導入するとともに、偽または真の画像のグローバルおよびローカル表現を同時に識別できる「テキスト条件付きU-Netディスクリミネータ構造」を採用している。CoDrawおよびi-CLEVRという2つの異なるMTIMデータセットを用いた広範な実験により、提案手法が最先端の性能を達成することが示された。