8日前
アテンションベースのビデオキャプションフレームワーク(Hindi用)
{Sivaji Bandyopadhyay, · Thoudam Doren Singh, Alok Singh}
要約
近年、コンピュータビジョンと自然言語処理の間のギャップを埋めるための活発な研究が進められている。本論文では、ヒンディ語動画キャプション生成(Hindi video captioning)という問題に取り組む。インドのように言語的に多様性に富む国において、視覚的情報を母語で理解するための手段を提供することは極めて重要である。本研究では、ソフトテンポラルアテンション機構を拡張し、意味的アテンション(semantic attention)を組み合わせたハイブリッドアテンション機構を採用することで、システムが視覚的コンテキストベクトルと意味的入力に注目すべきタイミングを適切に決定できるようにしている。入力動画の視覚的コンテキストベクトルは、3次元畳み込みニューラルネットワーク(3D CNN)を用いて抽出し、エンコードされたコンテキストベクトルをデコードするには、アテンションモジュールを備えた長短期記憶(LSTM)再帰型ニューラルネットワークを用いている。実験では、MSR-VTTデータセットを翻訳した上で後処理を施して自前で構築したヒンディ語動画キャプションデータセットを用いた。提案システムは、CIDErスコア0.369、METEORスコア0.393を達成し、RMN(Reasoning Module Networks)をベースとする他のベースラインモデルを上回る性能を示した。