17日前

DeblurDiNAT:未知ドメインにおいて優れた汎化性能と視覚的忠実度を実現するコンパクトなモデル

Hanzhou Liu, Binghan Li, Chengkai Liu, Mi Lu
DeblurDiNAT:未知ドメインにおいて優れた汎化性能と視覚的忠実度を実現するコンパクトなモデル
要約

近年のデブラーイングネットワークは、かすれた画像から鮮明な画像を効果的に復元する技術を実現している。しかし、未知のドメインへの一般化能力に課題を抱えており、また多くのモデルはPSNRやSSIMといった歪み評価指標に注目する一方で、人間の知覚と整合性を持つ指標の重要性を軽視している。こうした課題を克服するため、本研究では「DeblurDiNAT」という、拡張近傍注意(Dilated Neighborhood Attention)を基盤とするデブラーイングTransformerを提案する。まず、DeblurDiNATは、局所的およびグローバルなかすれパターンを同時に捉えるための、交互に変化する拡張率(dilation factor)のパラダイムを採用することで、一般化性能と知覚的明瞭性の両方を向上させている。次に、隣接チャネル間の短距離関係を理解するため、局所的なクロスチャネル学習モジュールをTransformerブロックに導入している。さらに、シンプルでありながら効果的な構造を持つ線形フィードフォワードネットワークを設計した。最後に、従来のアプローチとは異なり、二段階の特徴融合モジュールを導入し、ネットワークの複数レベルにわたる多スケール視覚情報を効率的に処理する。最先端モデルと比較して、本モデルはコンパクトな構成でありながら、優れた一般化能力を示し、知覚評価指標において顕著な性能を達成している。同時に、モデルサイズの面でも良好なバランスを維持している。