17日前

画像キャプション生成のためのメッシュドメモリTransformer

Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, Rita Cucchiara

要約

Transformerに基づくアーキテクチャは、機械翻訳や言語理解といった系列モデリングタスクにおいて、現在の最先端技術を代表しています。しかし、画像キャプション生成などマルチモーダルな文脈における応用については、依然として十分に検討されていません。このギャップを埋める目的で、本研究では画像キャプション生成を目的とした「M²（Meshed Transformer with Memory）」を提案します。本アーキテクチャは、画像エンコーディングおよび言語生成の両方を改善します。具体的には、画像領域間の関係性について階層的な表現を学習し、事前に学習された知識を統合する一方で、デコード段階でメッシュ構造の接続性を用いて低次および高次特徴を効果的に活用します。実験的に、M² Transformerおよびさまざまな完全自己注意（fully-attentive）モデルの性能を再帰型モデルと比較しました。COCOデータセット上で評価した結果、本手法は「Karpathy」テストスプリットおよびオンラインテストサーバーにおいて、単一モデルおよびアンサンブル構成の両方で、新たな最先端性能を達成しました。さらに、訓練データに含まれなかったオブジェクトの記述能力についても評価を行いました。本研究で使用した訓練済みモデルおよび実験再現用のコードは、以下のURLから公開されています：https://github.com/aimagelab/meshed-memory-transformer。