3ヶ月前
VICTR:テキストtoイメージマルチモーダルタスクにおける視覚情報捕捉テキスト表現
Soyeon Caren Han, Siqu Long, Siwen Luo, Kunze Wang, Josiah Poon

要約
テキストから画像を生成または検索するテキスト-画像マルチモーダルタスクは、視覚的に現実的な画像を完全に記述するには十分な情報を含まない原始的なテキスト記述に起因して、極めて困難な課題である。本研究では、テキスト-画像マルチモーダルタスクに適した新しい視覚的文脈を反映したテキスト表現手法、VICTR(Visual Contextual Text Representation)を提案する。VICTRは、テキスト入力から物体の豊かな視覚的意味情報を捉えることを可能にする。まず、テキスト記述を初期入力として用い、依存構文解析を実行することで構文構造を抽出し、物体の数や属性などの意味的側面を分析してシーングラフを構築する。次に、得られたシーングラフ内の物体、属性、関係および対応する幾何学的関係情報をグラフ畳み込みネットワーク(Graph Convolutional Networks, GCN)を用いて学習し、テキストと視覚的意味情報を統合したテキスト表現を生成する。このテキスト表現は、単語レベルおよび文レベルの埋め込みと統合され、視覚的文脈を反映した単語表現および文表現を生成する。評価において、VICTRを最先端のテキスト-画像生成モデルに統合して検証した。VICTRは既存モデルへの組み込みが容易であり、定量的・定性的な両面で性能向上を実現している。