3ヶ月前

テキストから画像への拡散モデルを活用した視覚認識の実現

Wenliang Zhao, Yongming Rao, Zuyan Liu, Benlin Liu, Jie Zhou, Jiwen Lu
テキストから画像への拡散モデルを活用した視覚認識の実現
要約

拡散モデル(Diffusion Models, DMs)は、生成モデルの新しいトレンドとして浮上し、条件付き合成において強力な能力を示している。その中でも、大規模な画像・テキストペアで事前学習されたテキストから画像への拡散モデルは、カスタマイズ可能なプロンプトによって高い制御性を備えている。無条件生成モデルが低レベルな属性や細部に注目するのに対し、テキストから画像への拡散モデルは、視覚・言語の事前学習によりより高レベルな知識を内包している。本論文では、事前学習済みのテキストから画像への拡散モデルの意味情報を利用した新しいフレームワーク、VPD(Visual Perception with a pre-trained Diffusion model)を提案する。拡散ベースのパイプラインで用いられる事前学習済みのノイズ除去オートエンコーダをそのまま使用するのではなく、本研究ではそれをバックボーンとして用い、学習済み知識を最大限に活用する方法を検討する。具体的には、適切なテキスト入力を用いてノイズ除去デコーダをプロンプト化し、アダプタによりテキスト特徴量を精緻化することで、事前学習段階とのより良い整合性を実現し、視覚的コンテンツとテキストプロンプトとの相互作用を促進する。また、視覚特徴量とテキスト特徴量間のクロスアテンションマップを活用し、明示的なガイドラインを提供する手法も提案する。他の事前学習手法と比較して、本研究で提示するVPDにより、視覚認識タスクへの適応がより迅速に行えることが示された。セマンティックセグメンテーション、参照画像セグメンテーション、深度推定という複数のタスクにおいて広範な実験を行った結果、本手法の有効性が確認された。特に、NYUv2深度推定では0.254のRMSE、RefCOCO-valの参照画像セグメンテーションでは73.3%のoIoUを達成し、それぞれのベンチマークで新記録を樹立した。コードは以下のURLから公開されている:https://github.com/wl-zhao/VPD