
要約
言語と視覚の統合埋め込みを学習することは、多くの魅力的な特性を持ち、自然言語による画像/動画の注釈や検索など、さまざまな実用的な応用が可能です。本研究では、3つの異なる言語-視覚統合ニューラルネットワークモデルアーキテクチャを検討します。これらのモデルを大規模なLSMDC16映画データセットで評価し、以下の2つのタスクについて考察します:1) 動画注釈と検索のための標準ランキング 2) 当方が提案する映画の選択問題テスト。このテストは、人間の活動に基づく自然言語動画注釈における視覚-言語モデルの自動評価を容易にします。LSMDC16に含まれる元々のオーディオ説明(AD)キャプションに加えて、a) Amazon MTurkを使用して手動で生成した再表現キャプション b) 「Knowlywood」(活動知識掘り下げモデル)に基づいて自動生成された「述語 + 目的語」(PO)フレーズ形式の人間活動要素を収集し、公開いたします。最良のモデルは、1000サンプルのサブセットにおいて注釈タスクでRecall@10 19.2%、動画検索タスクで18.9%を達成しました。選択問題テストでは、最良のモデルが全体のLSMDC16公開テストセットにおいて58.11%の精度を達成しています。