2ヶ月前
解像度に頑健な大規模マスク補完を用いたフーリエ畳み込み
Roman Suvorov; Elizaveta Logacheva; Anton Mashikhin; Anastasia Remizova; Arsenii Ashukha; Aleksei Silvestrov; Naejin Kong; Harshith Goka; Kiwoong Park; Victor Lempitsky

要約
現代の画像補完システムは、大きな進歩を遂げているにもかかわらず、大規模な欠損領域、複雑な幾何学的構造、および高解像度画像に対してしばしば苦戦しています。これらの問題の主な原因の一つは、補完ネットワークと損失関数の両方で効果的な受容野が不足していることにあると考えられます。この課題を緩和するため、私たちは新しい手法である大マスク補完(LaMa)を提案します。LaMa は以下の要素に基づいています:i) 画像全体の受容野を持つ高速フーリエ畳み込み(Fast Fourier Convolutions: FFCs)を使用した新しい補完ネットワークアーキテクチャ;ii) 高受容野の知覚損失;iii) 大規模な訓練用マスク,これにより前記二つの成分の潜在能力が解放されます。私たちの補完ネットワークは、さまざまなデータセットにおいて最先端の性能を向上させ、特に周期的構造の完成などの困難なシナリオでも優れた性能を達成しています。また、訓練時に見られた解像度よりも高い解像度に驚くほどよく汎化し、競合する基準モデルよりも低いパラメータと時間コストでこれを実現しています。コードは \url{https://github.com/saic-mdal/lama} から入手可能です。