HyperAIHyperAI
vor 2 Monaten

Soziale Struktur: Tubule-Kompositionen für die Erkennung von Video-Beziehungen

Shuo Chen; Zenglin Shi; Pascal Mettes; Cees G. M. Snoek
Soziale Struktur: Tubule-Kompositionen für die Erkennung von Video-Beziehungen
Abstract

Dieses Papier strebt danach, die Beziehungen zwischen Objekt-Tubelets, die innerhalb eines Videos auftreten, als ein <Subjekt-Prädikat-Objekt>-Triplet zu klassifizieren und zu erkennen. Während bestehende Arbeiten Objektvorschläge oder Tubelets als einzelne Entitäten behandeln und ihre Beziehungen nachträglich modellieren, schlagen wir vor, Prädikate für Paare von Objekt-Tubelets vorab zu klassifizieren und zu erkennen. Wir stellen zudem den Social Fabric vor: eine Kodierung, die ein Paar von Objekt-Tubelets als Zusammensetzung von Interaktionsprimitiven darstellt. Diese Primitiven werden über alle Beziehungen gelernt, was zu einer kompakten Darstellung führt, die in der Lage ist, Beziehungen aus dem Pool gleichzeitig auftretender Objekt-Tubelets über alle Zeitspannen in einem Video zu lokalisieren und zu klassifizieren. Die Kodierung ermöglicht unser zweistufiges Netzwerk. Im ersten Stadium trainieren wir den Social Fabric, um Vorschläge zu machen, die wahrscheinlich interagieren. Im zweiten Stadium verwenden wir den Social Fabric, um gleichzeitig die Feinabstimmung durchzuführen und Prädikatsbezeichnungen für die Tubelets vorherzusagen. Experimente zeigen den Nutzen des frühen Modellierens von Videobeziehungen sowie unserer Kodierung und der zweistufigen Architektur, was zu einem neuen Stand der Technik auf zwei Benchmarks führt. Wir demonstrieren auch, wie die Kodierung es ermöglicht, nach räumlich-zeitlichen Videobeziehungen mittels Abfrage durch primitives Beispiel (query-by-primitive-example) zu suchen. Quellcode: https://github.com/shanshuo/Social-Fabric.

Soziale Struktur: Tubule-Kompositionen für die Erkennung von Video-Beziehungen | Neueste Forschungsarbeiten | HyperAI