17日前

画像の調和化におけるTransformer

{Junyu Dong, Bing Zheng, Zhaorui Gu, Haiyong Zheng, Dongsheng Guo, Zonghui Guo}
画像の調和化におけるTransformer
要約

画像調和(image harmonization)とは、合成画像がより現実的であるようにするための重要な課題であり、同時に困難なタスクである。この技術では、ある画像の前景(foreground)と別の画像の背景(background)を組み合わせて合成画像を生成するが、照明条件の違いによって生じる不自然な外観(inharmonious appearance)という問題が避けがたい。現在の主流のアプローチは、畳み込みニューラルネットワーク(CNN)を用いたエンコーダ・デコーダ構造により、合成画像の文脈情報を捉え、前景周辺の背景の外観を理解しようとするものである。本研究では、長距離の文脈依存性を強力にモデル化できるTransformerの能力を活用し、前景の照明を背景の照明に適合させる一方で、構造や意味情報は維持するというアプローチにより、画像調和を実現することを目的とする。本研究では、分離(disentanglement)を含む・含まない2種類の調和Transformerフレームワークの設計を提示し、包括的な実験およびアブレーションスタディを通じて、Transformerの有効性を検証し、視覚認識におけるTransformerの可能性を考察している。実験結果から、本手法は画像調和および画像補間・強調の両分野で最先端の性能を達成しており、優位性が示された。コードおよびモデルは、https://github.com/zhenglab/HarmonyTransformer にて公開されている。

画像の調和化におけるTransformer | 最新論文 | HyperAI超神経