
要約
ハイパーニミー、テキスト的包含関係(textual entailment)、および画像キャプション生成は、単一の視覚-意味階層における言葉、文、および画像の特別なケースとして捉えることができます。本論文では、この階層の部分順序構造を明示的にモデル化することを提唱します。その目的に向けて、順序付き表現を学習する一般的方法を導入し、画像と言語に関連する様々なタスクへの適用方法を示します。結果的に得られた表現が、現在のハイパーニム予測や画像-キャプション検索の手法よりも性能を向上させることを確認しました。注:「テキスト的包含関係」は一般的に「テキスト的包含」または「テキストエンタイルメント」とも呼ばれます。ここでは後者を使用しました。