要約
前景・背景分離は長年にわたり活発な研究テーマである。しかし、従来のモデルは、照明条件が極めて厳しい動画に対して正確な結果を生成できず、限界に直面している。本論文では、極めて暗いまたは明るいシーン、さらには動画シーケンス内で連続的に変化する照明条件下でも正確に前景を抽出できる堅牢なモデルを提案する。この目的を達成するために、暗い画像と明るい画像間の意味的関係を効果的にモデル化し、二値分類をエンドツーエンドで実行する、三重マルチタスク生成的対抗ネットワーク(TMT-GAN)を採用している。本研究の貢献は以下の2点に集約される。第一に、GAN損失とセグメンテーション損失を共同最適化することで、両タスクが互いに補完し合う形で同時に学習可能であることを示した。第二に、異なる照明条件を持つ画像の特徴をセグメンテーションブランチに統合することで、ネットワークの性能が著しく向上することを実証した。極めて困難な実データおよび合成データを用いたベンチマークデータセット(ESIおよびSABS)における比較評価により、TMT-GANの堅牢性と最先端手法に対する優位性が明確に示された。