
要約
意味論的インスタンスセグメンテーションは依然として困難な課題である。本研究では、画素レベルで動作し、単純な後処理ステップで容易にクラスタリングできる画像表現を生成するように畳み込みネットワークを促す識別的損失関数を提案する。この損失関数は、ネットワークが各画素を特徴空間内の点にマッピングするよう励まし、同じインスタンスに属する画素が互いに近接し、異なるインスタンスは広いマージンで分離されるように設計されている。我々のアプローチは、既存のネットワークと計量学的な目的関数から着想を得た原理に基づく損失関数を組み合わせており、概念的には単純であり、最近のインスタンスセグメンテーションに関する取り組みとは明確に区別されている。以前の研究とは対照的に、我々の方法はオブジェクト提案や再帰的メカニズムに依存していない。本研究における重要な貢献の一つは、このような単純な設定でも効果的であり、より複雑な手法と同等の性能を達成できることを示すことである。さらに、一般的な検出とセグメンテーションのアプローチが持ついくつかの制限に悩まされないことを示している。我々はCityscapesおよびCVPPP葉セグメンテーションベンチマークにおいて競合他社と匹敵する性能を達成した。注:「bells and whistles」は直訳すると「ベルやホイッスル」だが、ここでは「装飾的な要素」や「余分な機能」といった意味合いを持つ慣用句として扱われているため、「余分な機能なしで」という表現を使用した。