HyperAIHyperAI

Command Palette

Search for a command to run...

画像キャプション生成のためのメッシュドメモリTransformer

Marcella Cornia Matteo Stefanini Lorenzo Baraldi Rita Cucchiara

概要

Transformerに基づくアーキテクチャは、機械翻訳や言語理解といった系列モデリングタスクにおいて、現在の最先端技術を代表しています。しかし、画像キャプション生成などマルチモーダルな文脈における応用については、依然として十分に検討されていません。このギャップを埋める目的で、本研究では画像キャプション生成を目的とした「M²(Meshed Transformer with Memory)」を提案します。本アーキテクチャは、画像エンコーディングおよび言語生成の両方を改善します。具体的には、画像領域間の関係性について階層的な表現を学習し、事前に学習された知識を統合する一方で、デコード段階でメッシュ構造の接続性を用いて低次および高次特徴を効果的に活用します。実験的に、M² Transformerおよびさまざまな完全自己注意(fully-attentive)モデルの性能を再帰型モデルと比較しました。COCOデータセット上で評価した結果、本手法は「Karpathy」テストスプリットおよびオンラインテストサーバーにおいて、単一モデルおよびアンサンブル構成の両方で、新たな最先端性能を達成しました。さらに、訓練データに含まれなかったオブジェクトの記述能力についても評価を行いました。本研究で使用した訓練済みモデルおよび実験再現用のコードは、以下のURLから公開されています:https://github.com/aimagelab/meshed-memory-transformer


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています