7日前

視覚変換器を用いた補完特徴強化ネットワークによる画像霞消去

Dong Zhao, Jia Li, Hongyu Li, Long Xu
視覚変換器を用いた補完特徴強化ネットワークによる画像霞消去
要約

従来のCNNベースの霞消去モデルは、二つの根本的な問題を抱えている。一つは霞消去フレームワークの解釈可能性の限界であり、もう一つは畳み込み層がコンテンツに依存せず、長距離依存性情報を効果的に学習できない点である。本論文では、まず、補完的特徴を複数の補完的サブタスクによって学習し、それらを統合して主タスクの性能を向上させる新しい補完的特徴強化フレームワークを提案する。この新フレームワークの顕著な利点の一つは、意図的に選ばれた補完的タスクが弱い依存性を持つ補完的特徴に焦点を当てることで、ネットワーク内の重複的かつ非効率的な学習を回避できる点である。本研究では、このフレームワークに基づいて新たな霞消去ネットワークを設計した。具体的には、内在画像分解(intrinsic image decomposition)を補完的タスクとして選定し、反射率推定とシャドー推定のサブタスクを用いて、色情報およびテクスチャ情報に基づく補完的特徴を抽出する。これらの補完的特徴を効果的に統合するために、より有用な特徴を選択するための補完的特徴選択モジュール(Complementary Features Selection Module: CFSM)を提案する。さらに、新しいバージョンのビジョントランスフォーマーブロックであるハイブリッド・ローカルグローバルビジョントランスフォーマー(Hybrid Local-Global Vision Transformer: HyLoG-ViT)を導入し、霞消去ネットワークに組み入れた。HyLoG-ViTブロックは、局所的依存性を捉えるためのローカルビジョントランスフォーマーパスと、グローバル依存性を捉えるためのグローバルビジョントランスフォーマーパスを備えており、ネットワークに局所性を導入するとともに、グローバルかつ長距離の依存性を効果的に捉えることができる。均質・非均質・夜間の霞消去タスクにおける広範な実験結果から、提案する霞消去ネットワークが、従来のCNNベースのモデルと比較して同等、あるいはより優れた性能を達成できることを示した。

視覚変換器を用いた補完特徴強化ネットワークによる画像霞消去 | 最新論文 | HyperAI超神経