2ヶ月前

TagAlign: 複数タグ分類を用いた視覚言語アライメントの改善

Qinying Liu; Wei Wu; Kecheng Zheng; Zhan Tong; Jiawei Liu; Yu Liu; Wei Chen; Zilei Wang; Yujun Shen
TagAlign: 複数タグ分類を用いた視覚言語アライメントの改善
要約

視覚言語モデルの学習の核心は、視覚データと言語データから意味的に整合性のある情報を抽出することである。既存の試みでは、大まかな対応(例えば、属性指定されたオブジェクトの位置特定が困難な場合)という問題に直面することが多い。本研究では、画像とテキストの特徴をより正確に合わせるための非常に単純なアプローチを提案する。このアプローチでは、追加のデータ形式を使用せずに画像-テキストペアのみで実現可能である。具体的には、画像とその対応するテキストが与えられたとき、説明からオブジェクト(例:猫)や属性(例:黒)を解析し、これらが画像中に存在する可能性が高いものとして扱う。注目に値するのは、この解析パイプラインが完全に自動化されており、スケーラビリティに優れている点である。これらの解析された意味情報を利用することで、一般的に使用される画像-テキストコントラスティブ損失にマルチタグ分類損失を補完的に追加できる。広範囲なセマンティックセグメンテーションデータセットでの詳細な実験結果により、我々のフレームワークは既存手法に対して平均5.2%の性能向上が確認された。さらに、可視化結果は属性監督が視覚言語モデルにおいて属性指定されたオブジェクトを正確に位置特定することを示している。プロジェクトページは以下のURLでご覧いただけます: https://qinying-liu.github.io/Tag-Align.