
要約
自然画像は通常、豊かな意味的内容を伝え、異なる角度から見ることができます。既存の画像説明手法は、偏った視覚的な段落注釈の小さなセットに大きく制限されており、豊かな潜在的な意味をカバーすることができません。本論文では、局所的な意味領域の推論と言語知識の活用により、多様で意味的に一貫した段落説明を合成できる半教師ありの段落生成フレームワークについて調査します。提案する再帰的トピック遷移生成対抗ネットワーク(Recurrent Topic-Transition Generative Adversarial Network: RTT-GAN)は、構造化された段落ジェネレータとマルチレベルの段落ディスクリミネータ間の対抗フレームワークを構築します。段落ジェネレータは、各ステップで領域ベースの視覚的および言語的注意メカニズムを取り入れることで、反復的に文を生成します。生成された段落文の品質は、文レベルでの妥当性と段落レベルでのトピック遷移の一貫性という2つの側面から、マルチレベルの対抗ディスクリミネータによって評価されます。RTT-GANの共同対抗学習は、モデルが現実的な段落を生成し、文間のトピック遷移が滑らかになることを促進します。画像および動画の段落データセットに対する広範な定量的実験により、我々のRTT-GANが教師あり設定および半教師あり設定において有効であることが示されています。また、画像に対して多様な物語を伝える定性的結果もRTT-GANの解釈可能性を確認しています。