vor 2 Monaten

Tiefes variationsstrukturiertes Reinforcement Learning für die Detektion visueller Beziehungen und Attribute

Xiaodan Liang; Lisa Lee; Eric P. Xing

Abstract

Trotz Fortschritten bei visuellen Wahrnehmungsaufgaben wie Bildklassifizierung und -erkennung haben Computer weiterhin Schwierigkeiten, die Interdependenz von Objekten im Gesamtbild zu verstehen, beispielsweise Beziehungen zwischen Objekten oder deren Eigenschaften. Bestehende Methoden ignorieren oft globale Kontexthinweise, die die Interaktionen zwischen verschiedenen Objektinstanzen erfassen, und können nur eine kleine Anzahl von Typen durch umfassendes Training individueller Detektoren für alle möglichen Beziehungen erkennen. Um diese globale Interdependenz zu erfassen, schlagen wir ein tiefes Variation-strukturiertes Reinforcement-Learning (VRL)-Framework vor, das sequentiell Objektbeziehungen und -eigenschaften im gesamten Bild entdeckt. Zunächst wird ein gerichteter semantischer Aktionengraph unter Verwendung sprachlicher A-priori-Wissensquellen erstellt, um eine reichhaltige und kompakte Darstellung der semantischen Korrelationen zwischen Objektkategorien, Prädikaten und Attributen bereitzustellen. Im Anschluss verwenden wir eine variation-strukturierte Traversierung des Aktionengraphen, um für jeden Schritt auf Basis des aktuellen Zustands und historischer Aktionen einen kleinen, adaptiven Aktionssatz zu konstruieren. Insbesondere wird ein semantisch Unschärfebewusstes Objektmining-Verfahren verwendet, um die semantische Unsicherheit zwischen den Objektkategorien zu lösen, die der Objektdetektor nicht unterscheiden kann. Wir führen dann sequentielle Vorhersagen mit einem tiefen RL-Framework durch, wobei globale Kontexthinweise und semantische Einbettungen der zuvor extrahierten Phrasen in den Zustandsvektor integriert werden. Unsere Experimente auf dem Visual Relationship Detection (VRD)-Datensatz und dem groß angelegten Visual Genome-Datensatz bestätigen die Überlegenheit des VRL, das erheblich bessere Erkennungsergebnisse auf Datensätzen erzielen kann, die Tausende von Beziehungstypen und Attributen betreffen. Wir zeigen auch, dass VRL in der Lage ist, unbekannte Typen in unserem Aktionengraph vorherzusagen, indem es Korrelationen auf gemeinsamen Graphknoten lernt.