3ヶ月前

低レベルビジョン向け効率的なTransformerベースの画像事前学習

Wenbo Li, Xin Lu, Shengju Qian, Jiangbo Lu, Xiangyu Zhang, Jiaya Jia
低レベルビジョン向け効率的なTransformerベースの画像事前学習
要約

事前学習は、高レベルのコンピュータビジョン分野において多数の最先端性能を達成してきたが、その一方で、事前学習が画像処理システム内での働き方についての検討はほとんど行われてこなかった。本研究では、Transformerベースの事前学習手法を設計し、多様な低レベル画像処理タスクの性能向上を実現した。事前学習の影響を包括的に診断するため、内部表現への影響を明らかにするための体系的な評価ツールを構築した。得られた観察結果から、事前学習が低レベルタスクにおいて顕著に異なる役割を果たしていることが明らかになった。例えば、スーパーレゾリューション(SR)においては、事前学習によって高層部の特徴量により多くの局所的情報を導入でき、著しい性能向上が得られた一方、ノイズ除去タスクでは内部特徴表現にほとんど影響を及ぼさず、性能向上は限定的であった。さらに、さまざまな事前学習手法を比較検討した結果、複数の関連タスクを統合した多タスク事前学習が、他の手法に比べてより効果的かつデータ効率的であることが示された。最後に、データ量やモデルサイズの変化、TransformerとCNNベースのアーキテクチャとの比較についても研究を拡張した。本研究の知見を基に、複数の低レベル画像処理タスクにおいて最先端の性能を達成するモデルを成功裏に開発した。実装コードは、https://github.com/fenglinglwb/EDT にて公開されている。