Graphonomie: Universelle Bildanalyse mittels Graphenreasoning und Transfer

Bisherige hochspezialisierte Modelle zur Bildanalyse werden in der Regel in einem bestimmten Anwendungsbereich mit einer festgelegten Menge semantischer Labels untersucht und lassen sich ohne umfangreiche Neutrainierung nur schwer auf andere Szenarien übertragen (z. B. bei unterschiedlicher Granularität der Labels). Die Entwicklung eines einzigen universellen Parsing-Modells, das Label-Annotationen aus verschiedenen Domänen oder auf unterschiedlichen Granularitätsebenen vereint, stellt eine zentrale, jedoch bisher selten bearbeitete Herausforderung dar. Dies führt zu zahlreichen grundlegenden Lernproblemen, beispielsweise der Entdeckung zugrundeliegender semantischer Strukturen zwischen unterschiedlichen Label-Granularitäten oder der Erfassung von Label-Beziehungen zwischen verwandten Aufgaben. Um diese Herausforderungen zu bewältigen, schlagen wir einen Graphen-Reasoning- und Transfer-Lernansatz vor, namens „Graphonomy“, der menschliches Wissen und Label-Taxonomien in die Lernung von Zwischen-Graphendarstellungen jenseits lokaler Faltungen integriert. Insbesondere lernt Graphonomy die globale und strukturierte semantische Kohärenz über mehrere Domänen hinweg durch semantikbewusste Graphen-Reasoning- und Transfermechanismen, wodurch ein wechselseitiger Nutzen der Parsing-Aufgaben zwischen den Domänen (z. B. verschiedene Datensätze oder verwandte Aufgaben) gefördert wird. Graphonomy besteht aus zwei iterativ arbeitenden Modulen: dem Intra-Graphen-Reasoning-Modul und dem Inter-Graphen-Transfer-Modul. Letzteres extrahiert in jeder Domäne einen semantischen Graphen, um die Merkmalsdarstellung durch Informationsweiterleitung über den Graphen zu verbessern, während das zweite Modul die Abhängigkeiten zwischen Graphen aus unterschiedlichen Domänen nutzt, um bidirektionale Wissensübertragung zu ermöglichen. Wir wenden Graphonomy auf zwei verwandte, aber unterschiedliche Forschungsfelder der Bildverstehens an: die menschliche Parsing-Aufgabe und die Panoptic-Segmentation. Die Ergebnisse zeigen, dass Graphonomy beide Aufgaben effizient über einen standardisierten Pipeline-Ansatz bewältigen kann, wobei die Leistung dem aktuellen Stand der Technik entspricht oder sie sogar übertrifft. Darüber hinaus wird ein zusätzlicher Vorteil unseres Ansatzes demonstriert: die Erzeugung von menschlichen Parsing-Ergebnissen auf unterschiedlichen Granularitätsebenen durch die Vereinheitlichung von Annotationen aus verschiedenen Datensätzen.