17日前
深層畳み込みニューラルネットワークを用いたエンコーダ・デコーダモデルによるベングァル語画像キャプション生成の改善
Mohammad Faiyaz Khan, S.M. Sadiq-Ur-Rahman Shifath, Md. Saiful Islam

要約
画像キャプション生成は、画像の文脈に即した構文的にも意味的にも正しい自然言語によるテキスト記述を生成する困難なタスクである。ベンガル語画像キャプション(BIC)に関する既存の主要な研究は、エンコーダ-デコーダアーキテクチャに基づいている。本研究では、一変数畳み込みニューラルネットワーク(CNN)を用いて系列情報をエンコードし、事前に学習されたResNet-50モデルを画像エンコーダとして用いて領域ベースの視覚的特徴を抽出するマルチモーダルアーキテクチャを統合したエンドツーエンド型の画像キャプション生成システムを提案する。我々は、BanglaLekhaImageCaptionsデータセット上で既存の評価指標を用いて提案手法の性能を検証するとともに、定性的分析のために人間評価も実施した。実験の結果、本手法の言語エンコーダがキャプション内の微細な情報を効果的に捉え、視覚的特徴と組み合わせることで、正確かつ多様なキャプション生成が可能であることが示された。本研究は、既存のすべてのBIC手法を上回り、BLUE-1で0.651、CIDErで0.572、METEORで0.297、ROUGEで0.434、SPICEで0.357というスコアを達成し、新たな最先端(SOTA)性能を実現した。