8ヶ月前

概要

既存の肖像マッティング手法は、高コストで取得が困難な補助入力を必要とするか、計算負荷が高い複数の段階を含むため、リアルタイムアプリケーションには適していない場合が多い。本研究では、単一の入力画像からリアルタイムで肖像マッティングを行う軽量な目的分解ネットワーク（MODNet: Matting Objective Decomposition Network）を提案する。当ネットワークの効率的な設計の中心的な考え方は、明示的な制約を通じて一連の部分目標を同時に最適化することである。さらに、MODNetはモデルの効率と堅牢性を向上させる2つの新技術を導入している。第一に、多尺度特徴量を融合して意味論的推定を行う効率的なアトラス空間ピラミッドプーリング（e-ASPP: Efficient Atrous Spatial Pyramid Pooling）モジュールが導入されている。第二に、トリマップフリー手法に一般的なドメインシフト問題に対処するために、自己監督型部分目標の一貫性（SOC: Self-Supervised Sub-Objectives Consistency）戦略が提案されている。MODNetはエンドツーエンドでの学習が容易であり、同時期の手法よりも遥かに高速で、1080Ti GPU上で67フレーム毎秒で動作する。実験結果は、Adobe Mattingデータセットおよび我々が考案した写真肖像マッティング（PPM-100: Photographic Portrait Matting）ベンチマークにおいて、MODNetが既存のトリマップフリー手法を大幅に上回ることを示している。さらに、日常的な写真や動画でも優れた結果を得ている。当研究のコードとモデルはhttps://github.com/ZHKKKe/MODNetにて公開されており、PPM-100ベンチマークはhttps://github.com/ZHKKKe/PPMにてリリースされている。

ソースPDF