17日前

ViTMatte:事前学習済みプレーンVision Transformerを活用した画像マットイングの性能向上

Jingfeng Yao, Xinggang Wang, Shusheng Yang, Baoyuan Wang
ViTMatte:事前学習済みプレーンVision Transformerを活用した画像マットイングの性能向上
要約

最近、汎用的な視覚変換器(Vision Transformers, ViT)は、強力なモデル化能力と大規模な事前学習の恩恵により、さまざまなコンピュータビジョンタスクにおいて優れた性能を発揮している。しかし、画像マッティング(image matting)の課題にはまだ十分に対応できていない。本研究では、ViTが画像マッティングの性能向上にも寄与可能であると仮定し、簡潔な適応によりViTの潜在能力を引き出す初めての効率的かつ堅牢なViTベースのマッティングシステム「ViTMatte」を提案する。本手法は以下の2つの要素を導入している。(i) 変換器と畳み込み層(convolution neck)を組み合わせたハイブリッドアテンション機構により、マッティングタスクにおいて優れた性能と計算量のバランスを実現する。(ii) さらに、単純な軽量畳み込みから構成される「詳細情報捕捉モジュール」を導入し、マッティングに不可欠な詳細情報を補完する。本研究までに、ViTMatteはViTを画像マッティングに適用する初めての試みであり、ViTが持つ多様な事前学習戦略、簡潔なアーキテクチャ設計、柔軟な推論戦略といった優れた特性をマッティングに継承している。Composition-1kおよびDistinctions-646という、画像マッティング分野で最も広く用いられるベンチマークデータセット上で評価した結果、本手法は最先端の性能を達成し、従来のマッティング手法を大きく上回った。