2ヶ月前

Distill-DBDGAN：焦点外ぼかし検出のための知識蒸留と敵対学習フレームワーク

{Rajiv Ranjan Sahay, Moushumi Medhi, Sankaraganesh Jonna}

要約

失焦ぼかし検出（Defocus Blur Detection: DBD）は、失焦ぼかしの影響を受ける画像からぼかし領域をセグメンテーションするタスクであり、さまざまなコンピュータビジョンタスクにおける重要な前処理ステップである。近年、小型モバイルデバイスの普及が進む中で、リソース制約環境下でも高精度かつ計算効率の高い失焦ぼかし検出手法の開発が求められている。本研究では、リソース制約デバイス上で各ピクセルが焦点を合っているかぼかし状態かの確率を効率的に推定する新しいDBD手法を提案する。近年の深層学習ベースの手法は顕著な進展を遂げているものの、背景の雑多さやスケール感度、焦点が合っているが低コントラストな領域とぼかし領域との区別困難、特に高い計算コストとメモリ要求という課題を抱えている。本研究では、前3つの課題に対処するため、入力されたぼかし画像からぼかしマップを効率的に検出できる新規な深層ネットワークを構築した。具体的には、深層ネットワーク内にマルチスケール特徴を統合することでスケールの曖昧性を解消するとともに、高レベルのぼかし特徴における非局所的な構造的相関を同時にモデル化した。また、最後の2つの課題（計算コストとメモリ使用量）に対処するため、大規模な教員ネットワーク（teacher network）からコンパクトな生徒ネットワーク（student network）へ知識を転送する知識蒸留（knowledge distillation）の枠組みを採用した。すべてのネットワークは、出力とターゲット分布の高次な一貫性を強制するために、エンドツーエンドで敵対的訓練（adversarial training）が行われる。実験結果により、大規模な教員ネットワークが最先端の性能を達成していることが確認された一方で、本研究で提案する軽量型DBDモデルは、教員ネットワークの出力を高精度を大きく損なわずに模倣することが可能である。本研究のコード、事前学習済みモデルの重み、および実験結果は公開予定である。