HyperAIHyperAI

Command Palette

Search for a command to run...

エンコーダ・デコーダベースのフレームワークによるヒンディー語画像キャプション生成

Sivaji Bandyopadhyay Thoudam Doren Singh Alok Singh

概要

近年、画像キャプション生成に関する研究活動が多くの研究者によって注目されている。本研究では、ヒンディ語視覚知識ベースデータセット(Hindi Visual Genome Dataset)を用いて、ヒンディ語画像キャプション生成の問題に取り組む。ヒンディ語はインドの公式言語であり、最も広く話されている言語である。インドのように言語的に多様性に富む国において、人々が自らの母語で視覚的エンティティを理解できる手段を提供することは極めて重要である。本論文では、画像の視覚的特徴をエンコードするための畳み込みニューラルネットワーク(CNN)と、単方向LSTMと双方向LSTMを組み合わせたスタック型長短期記憶(sLSTM)を用いて、ヒンディ語のキャプションを生成するエンコーダ・デコーダ構造を提案する。画像の視覚的特徴表現を符号化するためには、事前学習済みのVGG19モデルを採用し、デコーダ側ではsLSTMアーキテクチャを用いてキャプション生成を実施する。提案手法の性能を検証するために、ヒンディ語視覚知識ベースデータセット上でモデルを評価し、Flickrデータセットを用いた英語キャプションとのクロス検証も実施した。実験結果から、本手法はヒンディ語キャプション生成において、従来の最先端手法と比較して定性的・定量的に優れた性能を示すことが明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています