3ヶ月前
テキストからマスクへ:テキスト-画像拡散モデルのアテンションを用いたエンティティの局所化
Changming Xiao, Qi Yang, Feng Zhou, Changshui Zhang

要約
最近、拡散モデル(Diffusion models)がテキストから画像を生成する分野を大きく変革している。テキストと画像情報を融合する独創的なアプローチにより、高度にテキストに関連した画像を生成する優れた能力を発揮している。一方から見れば、これらの生成モデルは、単語とピクセルの間の精密な相関関係に関する手がかりを示唆している。本研究では、テキストから画像への拡散モデルにおけるノイズ除去ネットワーク内のアテンション機構を活用する、シンプルかつ効果的な手法を提案する。再訓練や推論時最適化を一切行わずに、語句の意味的基盤(semantic grounding)を直接得ることができる。本手法は、弱教師付きセマンティックセグメンテーション設定下でPascal VOC 2012およびMicrosoft COCO 2014のデータセット上で評価され、従来手法を上回る優れた性能を示した。さらに、得られた単語-ピクセル相関が、カスタマイズされた生成手法で学習されたテキスト埋め込み(text embedding)にも一般化可能であることが判明し、わずかな修正で利用可能である。本発見の妥当性を検証するために、新たな実用的タスク「パーソナライズド参照画像セグメンテーション(personalized referring image segmentation)」と、それに基づく新規データセットを導入した。さまざまな状況下での実験により、本手法が強力なベースラインに対して明確な優位性を示した。結論として、本研究は、拡散モデルに隠された豊富なマルチモーダル知識をセグメンテーションに活用するための、全く新しいアプローチを提示した。