Command Palette
Search for a command to run...
Interaktive Bildsegmentierung mit latenter Vielfalt
Interaktive Bildsegmentierung mit latenter Vielfalt
Qifeng Chen Zhuwen Li Vladlen Koltun
Zusammenfassung
Interaktive Bildsegmentierung zeichnet sich durch Multimodalität aus. Wenn der Benutzer auf eine Tür klickt, möchte er dann die Tür oder das gesamte Haus auswählen? Wir präsentieren einen end-to-end-Lernansatz für interaktive Bildsegmentierung, der diese Mehrdeutigkeit angeht. Unsere Architektur verbindet zwei konvolutionale Netzwerke. Das erste wird darauf trainiert, eine Vielzahl plausibler Segmentierungen zu synthetisieren, die den Eingaben des Benutzers entsprechen. Das zweite Netzwerk wird darauf trainiert, unter diesen Lösungen auszuwählen. Durch die Auswahl einer einzigen Lösung behält unser Ansatz die Kompatibilität mit bestehenden interaktiven Segmentierungs-Schnittstellen bei. Durch die Synthese mehrerer unterschiedlicher Lösungen vor der Auswahl erhält die Architektur die repräsentative Kraft, den multimodalen Lösungsraum zu erkunden. Wir zeigen, dass der vorgeschlagene Ansatz bestehende Methoden für interaktive Bildsegmentierung übertrifft, einschließlich vorheriger Arbeiten, die konvolutionale Netzwerke auf dieses Problem angewendet haben, und gleichzeitig deutlich schneller ist.