Selektives kontrastives Lernen für schwach überwachtes Affordance-Grundlegen

Die Unterstützung einer Entität bei ihrer Interaktion mit Objekten erfordert die präzise Identifizierung von Teilen, die bestimmte Aktionen ermöglichen. Weakly supervised affordance grounding (WSAG) zielt darauf ab, das menschliche Lernen aus Drittpersonen-Demonstrationen nachzuahmen, bei dem Menschen funktionale Teile intuitiv erkennen, ohne dass pixelgenaue Annotationen erforderlich sind. Um dies zu erreichen, wird das Grounding typischerweise durch einen gemeinsamen Klassifikator über Bilder aus verschiedenen Perspektiven gelernt, ergänzt durch Distanzierungstrategien, die den Prozess der Teilerkennung einbeziehen. Da jedoch affordanzrelevante Teile nicht immer leicht unterscheidbar sind, verlassen sich Modelle primär auf Klassifikation und konzentrieren sich oft auf häufige, klassenspezifische Muster, die mit der Affordanz nicht unbedingt zusammenhängen. Um diesen Einschränkungen entgegenzuwirken, gehen wir über isoliertes Teil-Level-Lernen hinaus und führen selektive prototypische sowie pixelbasierte kontrastive Ziele ein, die affordanzrelevante Hinweise adaptiv auf Teil- und Objekt-Ebene lernen, abhängig von der Granularität der verfügbaren Informationen. Zunächst identifizieren wir in egozentrischen (objektorientierten) und exozentrischen (Drittpersonen-Beispielen) Bildern die mit einer Aktion assoziierten Objekte mittels CLIP. Anschließend extrahieren wir durch die Kreuzverifikation der in beiden Perspektiven entdeckten Objekte präzise, teilbasierte Affordanz-Hinweise. Durch die kontinuierliche Lernung, affordanzrelevante Regionen von affordanzunrelevanten Hintergrundkontexten zu unterscheiden, verlagert unsere Methode die Aktivierung gezielt von irrelevanten Bereichen hin zu bedeutungsvollen Affordanzsignalen. Experimentelle Ergebnisse belegen die Wirksamkeit unseres Ansatzes. Der Quellcode ist unter github.com/hynnsk/SelectiveCL verfügbar.