HyperAIHyperAI
vor 2 Monaten

GENESIS-V2: Inferenz von ungeordneten Objektrepräsentationen ohne iterative Verfeinerung

Martin Engelcke; Oiwi Parker Jones; Ingmar Posner
GENESIS-V2: Inferenz von ungeordneten Objektrepräsentationen ohne iterative Verfeinerung
Abstract

Fortschritte im Bereich des unüberwachten Lernens von Objekt-Darstellungen haben zur Entwicklung einer breiten Palette von Methoden für die unüberwachte Objekt-Segmentierung und interpretierbare, objektorientierte Szeneriegenerierung geführt. Diese Methoden sind jedoch auf simulierten und realen Datensätzen mit begrenzter visueller Komplexität beschränkt. Zudem werden Objekt-Darstellungen oft mithilfe von RNNs (Recurrent Neural Networks) abgeleitet, die sich nicht gut auf große Bilder skalieren lassen, oder durch iteratives Verfeinern, das eine künstliche Ordnung der Objekte in einem Bild vermeidet, aber die vorherige Initialisierung einer festen Anzahl von Objekt-Darstellungen erfordert. Im Gegensatz zu etablierten Paradigmen schlägt diese Arbeit einen embeddingsbasierten Ansatz vor, bei dem Pixel-Embeddings unter Verwendung eines stochastischen Stick-Breaking-Prozesses (stochastic stick-breaking process) auf differenzierbare Weise gruppiert werden. Ähnlich wie beim iterativen Verfeinern führt dieses Clusterverfahren auch zu zufällig geordneten Objekt-Darstellungen, jedoch ohne die Notwendigkeit, eine feste Anzahl von Clustern im Voraus zu initialisieren. Dies wird genutzt, um ein neues Modell namens GENESIS-v2 zu entwickeln, das eine variable Anzahl von Objekt-Darstellungen ableiten kann, ohne RNNs oder iteratives Verfeinern zu verwenden. Wir zeigen, dass GENESIS-v2 in Bezug auf unüberwachte Bildsegmentierung und objektorientierte Szeneriegenerierung sowohl auf etablierten synthetischen als auch komplexeren realen Datensätzen stark gegenüber aktuellen Baselines abschneidet.

GENESIS-V2: Inferenz von ungeordneten Objektrepräsentationen ohne iterative Verfeinerung | Neueste Forschungsarbeiten | HyperAI