Command Palette
Search for a command to run...
密接関係キャプショニング:関係に基づくキャプショニングのための三重ストリームネットワーク
密接関係キャプショニング:関係に基づくキャプショニングのための三重ストリームネットワーク
Dong-Jin Kim Jinsoo Choi Tae-Hyun Oh In So Kweon
概要
本研究の目的は、より密度が高く情報量の多い画像キャプションを生成するモデルを訓練することである。私たちは「関係性キャプション」(relational captioning)という新しい画像キャプションタスクを導入する。このタスクは、画像内のオブジェクト間の関係性に基づいて複数のキャプションを生成することを目指しており、多様性と情報量において優れたフレームワークである。これにより、関係性に基づいた画像理解が可能となる。品詞(Part-of-Speech, POS、すなわち主語-目的語-述語のカテゴリー)タグは、英語の各単語に割り当てることができる。私たちは、POSを事前知識として活用し、キャプション内の単語の正しい順序をガイドするために利用する。この目的のために、私たちは3つの再帰ユニットから構成され、それぞれのPOSに対する予測とキャプション生成を同時に行うマルチタスク・トリプルストリームネットワーク(Multi-Task Triple-Stream Network, MTTSNet)を提案する。提案したモデルがいくつかのベースラインや競合手法に対してより多様で豊かな表現を生成することを示している。以上が原文に基づく日本語訳です。