HyperAIHyperAI

Command Palette

Search for a command to run...

EVP:逆マルチアテンション特徴精製と正則化された画像テキストアライメントを用いた強化視覚認識

Mykola Lavreniuk Shariq Farooq Bhat Matthias Müller Peter Wonka

概要

本研究では、Enhanced Visual Perception(EVP)と呼ばれるネットワークアーキテクチャを提案する。EVPは、従来のVPD(Visual Perception with Diffusion)を基盤としており、Stable Diffusionネットワークをコンピュータビジョンタスクに活用する道を開いた前例となる研究に続くものである。本研究では、以下の2つの主要な改良を提案する。第一に、より高いピラミッドレベルからの空間情報を統合することで特徴学習能力を強化する「逆マルチアテンション特徴精 refinement(Inverse Multi-Attentive Feature Refinement: IMAFR)」モジュールを構築した。第二に、Stable Diffusionバックボーンの特徴抽出性能を向上させるために、新たな画像-テキストアライメントモジュールを提案した。このようにして構築されたアーキテクチャは、幅広いタスクに適応可能であり、分類ベースのビンを用いた専用デコーダを用いた単一画像深度推定、および市販のデコーダを用いた参照セグメンテーションの文脈において、その有効性を実証した。既存のデータセットを用いた包括的な実験により、EVPは屋内環境(NYU Depth v2、VPD比でRMSE 11.8%の改善)、屋外環境(KITTI)における単一画像深度推定、および参照セグメンテーション(RefCOCO、ReLA比でIoU 2.53の向上)において、最先端の性能を達成した。コードおよび事前学習済みモデルは、https://github.com/Lavreniuk/EVP にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
EVP:逆マルチアテンション特徴精製と正則化された画像テキストアライメントを用いた強化視覚認識 | 記事 | HyperAI超神経