vor 2 Monaten

Mehrgranularitätsschließen für die Erkennung sozialer Beziehungen aus Bildern

Meng Zhang; Xinchen Liu; Wu Liu; Anfu Zhou; Huadong Ma; Tao Mei

Abstract

Die Entdeckung sozialer Beziehungen in Bildern kann Maschinen helfen, das Verhalten von Menschen besser zu interpretieren. Allerdings ist die automatische Erkennung sozialer Beziehungen in Bildern aufgrund der erheblichen Lücke zwischen den Bereichen visueller Inhalte und sozialer Beziehungen eine herausfordernde Aufgabe. Bestehende Studien verarbeiten verschiedene Merkmale wie Gesichtsausdrücke, Körpererscheinung und kontextuelle Objekte getrennt voneinander, sodass sie nicht umfassend die Multi-Granularität-Semantik erfassen können, wie zum Beispiel Szenen, regionale Hinweise von Personen und Interaktionen zwischen Personen und Objekten. Um diese Domänenlücke zu überbrücken, schlagen wir einen Rahmen für Multi-Granularitätsschließung zur Erkennung sozialer Beziehungen aus Bildern vor. Globales Wissen und mittelständige Details werden jeweils aus der gesamten Szene und den Regionen von Personen und Objekten gelernt. Am wichtigsten ist jedoch, dass wir die feingranularen Pose-Knotenpunkte von Personen untersuchen, um die Interaktionen zwischen Personen und Objekten zu entdecken. Insbesondere schlagen wir ein posegesteuertes Person-Objekt-Netzwerk (Person-Object Graph) und ein Person-Pose-Netzwerk (Person-Pose Graph) vor, um Aktionen von Personen an Objekte sowie Interaktionen zwischen Paaren von Personen zu modellieren. Basierend auf diesen Netzwerken wird die Schließung sozialer Beziehungen durch graphkonvolutionelle Netze durchgeführt. Schließlich werden globale Merkmale und abgeleitetes Wissen integriert, um eine umfassende Darstellung für die Erkennung sozialer Beziehungen zu bilden. Ausführliche Experimente mit zwei öffentlichen Datensätzen zeigen die Effektivität des vorgeschlagenen Rahmens.