HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von Mensch-Objekt-Interaktionen durch Graph-Parsing-Neuronale Netze

Siyuan Qi∗1,2 Wenguan Wang∗1,3 Baoxiong Jia1,4 Jianbing Shen†3,5 Song-Chun Zhu1,2

Zusammenfassung

Dieses Papier behandelt die Aufgabe der Erkennung und Identifizierung von Mensch-Objekt-Interaktionen (HOI) in Bildern und Videos. Wir stellen das Graph Parsing Neural Network (GPNN) vor, ein Framework, das strukturelles Wissen einbezieht und gleichzeitig von Anfang bis Ende differenzierbar ist. Für eine gegebene Szene inferiert GPNN einen Parse-Graphen, der i) die HOI-Graphstruktur durch eine Adjazenzmatrix und ii) die Knotenlabels umfasst. Innerhalb eines Inferenzrahmens mit Nachrichtenaustausch berechnet GPNN iterativ die Adjazenzmatrizen und Knotenlabels. Wir evaluieren unser Modell ausführlich anhand dreier Benchmarks für die Erkennung von HOIs in Bildern und Videos: den HICO-DET-, V-COCO- und CAD-120-Datensätzen. Unser Ansatz übertrifft erheblich die Stand der Technik Methoden, was bestätigt, dass GPNN auf große Datensätze skalierbar ist und sich auf räumlich-zeitliche Szenarien anwenden lässt. Der Code ist unter https://github.com/SiyuanQi/gpnn verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen von Mensch-Objekt-Interaktionen durch Graph-Parsing-Neuronale Netze | Paper | HyperAI