16日前

EVP:逆マルチアテンション特徴精製と正則化された画像テキストアライメントを用いた強化視覚認識

Mykola Lavreniuk, Shariq Farooq Bhat, Matthias Müller, Peter Wonka
EVP:逆マルチアテンション特徴精製と正則化された画像テキストアライメントを用いた強化視覚認識
要約

本研究では、Enhanced Visual Perception(EVP)と呼ばれるネットワークアーキテクチャを提案する。EVPは、従来のVPD(Visual Perception with Diffusion)を基盤としており、Stable Diffusionネットワークをコンピュータビジョンタスクに活用する道を開いた前例となる研究に続くものである。本研究では、以下の2つの主要な改良を提案する。第一に、より高いピラミッドレベルからの空間情報を統合することで特徴学習能力を強化する「逆マルチアテンション特徴精 refinement(Inverse Multi-Attentive Feature Refinement: IMAFR)」モジュールを構築した。第二に、Stable Diffusionバックボーンの特徴抽出性能を向上させるために、新たな画像-テキストアライメントモジュールを提案した。このようにして構築されたアーキテクチャは、幅広いタスクに適応可能であり、分類ベースのビンを用いた専用デコーダを用いた単一画像深度推定、および市販のデコーダを用いた参照セグメンテーションの文脈において、その有効性を実証した。既存のデータセットを用いた包括的な実験により、EVPは屋内環境(NYU Depth v2、VPD比でRMSE 11.8%の改善)、屋外環境(KITTI)における単一画像深度推定、および参照セグメンテーション(RefCOCO、ReLA比でIoU 2.53の向上)において、最先端の性能を達成した。コードおよび事前学習済みモデルは、https://github.com/Lavreniuk/EVP にて公開されている。

EVP:逆マルチアテンション特徴精製と正則化された画像テキストアライメントを用いた強化視覚認識 | 最新論文 | HyperAI超神経