HyperAIHyperAI

Command Palette

Search for a command to run...

SEM-POS:文法的かつ意味的に正しい動画キャプション生成

Asmar Nadeem Adrian Hilton Robert Dawes Graham Thomas Armin Mustafa

概要

動画キャプション生成において、文法的にも意味的にも正しいキャプションを生成することは、困難な課題である。従来の手法によって生成されるキャプションは、文法構造と一致しない単語単位の出力であるか、入力動画から重要な情報を漏らす傾向がある。このような問題に対処するため、本研究では新たなグローバル・ローカル統合ネットワークを提案する。このネットワークは、グローバル・ローカル統合ブロック(GLFB)を用いて、品詞(POS)成分の異なる部分からの特徴を視覚的・空間的特徴と統合・符号化する。さらに、POSブロックの教師信号として、新たな組み合わせとして「冠詞+主語」、「助動詞」、「動詞」、「冠詞+目的語」をそれぞれ「Det + Subject」、「Aux Verb」、「Verb」、「Det + Object」として採用した。この新規のグローバル・ローカル統合ネットワークとPOSブロックの組み合わせにより、視覚的特徴と言語的記述の整合性が向上し、文法的にも意味的にも正しいキャプションの生成が可能となる。標準ベンチマークデータセットであるMSVDおよびMSRVTTにおける広範な定性的・定量的実験の結果、提案手法は従来手法と比較してより文法的・意味的に正確なキャプションを生成し、新たな最先端性能(state-of-the-art)を達成した。POSブロックおよびGLFBのアブレーション実験により、提案手法における各構成要素の貢献度が明確に示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています