概要

近年、画像キャプション生成に関する研究活動が多くの研究者によって注目されている。本研究では、ヒンディ語視覚知識ベースデータセット（Hindi Visual Genome Dataset）を用いて、ヒンディ語画像キャプション生成の問題に取り組む。ヒンディ語はインドの公式言語であり、最も広く話されている言語である。インドのように言語的に多様性に富む国において、人々が自らの母語で視覚的エンティティを理解できる手段を提供することは極めて重要である。本論文では、画像の視覚的特徴をエンコードするための畳み込みニューラルネットワーク（CNN）と、単方向LSTMと双方向LSTMを組み合わせたスタック型長短期記憶（sLSTM）を用いて、ヒンディ語のキャプションを生成するエンコーダ・デコーダ構造を提案する。画像の視覚的特徴表現を符号化するためには、事前学習済みのVGG19モデルを採用し、デコーダ側ではsLSTMアーキテクチャを用いてキャプション生成を実施する。提案手法の性能を検証するために、ヒンディ語視覚知識ベースデータセット上でモデルを評価し、Flickrデータセットを用いた英語キャプションとのクロス検証も実施した。実験結果から、本手法はヒンディ語キャプション生成において、従来の最先端手法と比較して定性的・定量的に優れた性能を示すことが明らかになった。

ソースPDF