
要約
鏡は私たちの日常生活のいたるところに存在します。現行のコンピュータビジョンシステムは鏡を考慮しておらず、鏡に映った内容によって混乱することがあり、性能が大幅に低下する可能性があります。しかし、鏡の外にある実際の内容と、鏡の中にある反射された内容を分離することは容易ではありません。主な課題は、鏡が通常周囲と類似した内容を反射することであり、両者を区別することが非常に困難であることです。本論文では、入力画像から鏡をセグメンテーションする新しい手法を提案します。当該研究においては、計算的手法で鏡のセグメンテーション問題に取り組む初めての試みであると認識しています。以下の貢献を行いました。第一に、大規模な鏡データセットを作成しました。このデータセットには、対応する手動でアノテーションされたマスク付きの鏡画像が含まれており、日常生活のさまざまなシーンをカバーしています。このデータセットは今後の研究のために公開される予定です。第二に、鏡内のコンテンツと鏡外のコンテンツ間の意味的なおよび低レベルな色やテクスチャの不連続性をモデル化した新しいネットワークであるMirrorNet(ミラーネット)を提案しました。第三に、提案手法の評価のために広範な実験を行い、最新の検出およびセグメンテーション手法から慎重に選択されたベースラインを超える性能を示すことを確認しました。