Duales Modell zur Entschlüsselung sozialer Beziehungen

Seit Beginn der frühen Zivilisationen bilden soziale Beziehungen, die von jedem Individuum ausgehen, die Grundlage der sozialen Struktur in unserem täglichen Leben. In der Literatur zur Computer Vision wurde bei der Szeneinterpretation, wie zum Beispiel bei der Objekterkennung und Szeneanalyse, viel Fortschritt erzielt. Die jüngste Forschung konzentriert sich auf die Beziehungen zwischen Objekten basierend auf ihrer Funktionalität und geometrischen Relationen. In dieser Arbeit untersuchen wir das Problem der Erkennung sozialer Beziehungen in stehenden Bildern. Wir schlagen ein Dual-View-Modell für die Erkennung sozialer Beziehungen vor, bei dem beim ersten Blick das interessante Individuenpaar fixiert wird und beim zweiten Blick ein Aufmerksamheitsmechanismus eingesetzt wird, um kontextuelle Hinweise zu erkunden. Des Weiteren haben wir einen neuen groß angelegten Datensatz People in Social Context (PISC) gesammelt, der 22.670 Bilder und 76.568 annotierte Stichproben aus 9 Arten sozialer Beziehungen umfasst. Wir stellen Benchmark-Ergebnisse des PISC-Datensatzes vor und demonstrieren qualitativ die Effektivität des vorgeschlagenen Modells.