Visuelle Beziehungen mit tiefen relationalen Netzen erkennen

Beziehungen zwischen Objekten spielen eine entscheidende Rolle bei der Bildverarbeitung. Trotz des großen Erfolgs von Tiefenlernverfahren bei der Erkennung einzelner Objekte bleibt das Schließen über die Beziehungen zwischen Objekten eine herausfordernde Aufgabe. Frühere Methoden behandeln dies oft als ein Klassifikationsproblem, indem sie jede Art von Beziehung (z.B. "reiten") oder jede bestimmte visuelle Phrase (z.B. "Mensch-reitet-Pferd") als eine Kategorie betrachten. Solche Ansätze stoßen auf erhebliche Schwierigkeiten, die durch die hohe Vielfalt des visuellen Erscheinungsbildes für jede Art von Beziehung oder die große Anzahl unterschiedlicher visueller Phrasen verursacht werden. Wir schlagen einen integrierten Rahmen vor, um dieses Problem anzugehen. Im Zentrum dieses Rahmens steht das Deep Relational Network, eine neuartige Formulierung, die speziell zur Ausnutzung der statistischen Abhängigkeiten zwischen Objekten und ihren Beziehungen entwickelt wurde. Bei zwei großen Datensätzen erreicht das vorgeschlagene Verfahren erhebliche Verbesserungen im Vergleich zum Stand der Technik.