Command Palette
Search for a command to run...
潜在多様性を用いたインタラクティブ画像セグメンテーション
潜在多様性を用いたインタラクティブ画像セグメンテーション
Qifeng Chen Zhuwen Li Vladlen Koltun
概要
インタラクティブ画像セグメンテーションは、マルチモーダル性を特徴としています。ユーザーがドアをクリックした場合、その意図はドアそのものを選択することなのか、それとも全体の家を意味するのか、はっきりしない場合があります。本研究では、このような曖昧性に対処するエンドツーエンド学習アプローチを提案します。我々のアーキテクチャは、2つの畳み込みニューラルネットワークを組み合わせています。1つ目のネットワークは、ユーザーの入力に整合する多様な妥当なセグメンテーションを合成するように学習されています。2つ目のネットワークは、これらの候補の中から最適なものを選択するように学習されています。単一の解を選択することで、本手法は既存のインタラクティブセグメンテーションインターフェースと互換性を保ちます。一方、複数の多様な解を事前に合成することで、アーキテクチャはマルチモーダルな解空間を効果的に探索する表現力が得られます。実験により、本手法が従来のインタラクティブ画像セグメンテーション手法、特に畳み込みネットワークをこの問題に適用した先行研究を上回ることを示し、かつ処理速度も大幅に向上していることを確認しました。