HyperAIHyperAI

Command Palette

Search for a command to run...

ViPLO: Vision Transformer-basierter, posebedingter Selbstschleifen-Graph für die Detektion von Mensch-Objekt-Interaktionen

Jeeseung Park Jin-Woo Park Jong-Seok Lee

Zusammenfassung

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI), die die Lokalisierung und die Inferenz von Beziehungen zwischen Mensch und Objekt ermöglicht, spielt eine zentrale Rolle bei der Szenenverstehbarkeit. Obwohl zweistufige HOI-Detektoren im Training und bei der Inferenz hohe Effizienz aufweisen, erzielen sie aufgrund veralteter Backbone-Netzwerke und der Vernachlässigung des menschlichen Wahrnehmungsprozesses bei der Interaktionsklassifizierung im Vergleich zu einstufigen Methoden eine geringere Leistung. In diesem Artikel stellen wir ViPLO (Vision Transformer-based Pose-Conditioned Self-Loop Graph) vor, um diese Probleme zu lösen. Zunächst führen wir eine neuartige Merkmalsextraktionsmethode für Backbone-Netzwerke basierend auf Vision Transformers ein, die als MOA-Modul (Masking with Overlapped Area) bezeichnet wird. Das MOA-Modul nutzt den überlappenden Bereich zwischen jedem Patch und der vorgegebenen Region innerhalb der Aufmerksamkeitsfunktion, wodurch das Quantisierungsproblem bei der Verwendung von Vision Transformer-Backbones adressiert wird. Darüber hinaus entwerfen wir ein Graphenmodell mit einer posebedingten Selbstschleife, das die Kodierung der menschlichen Knoten durch lokale Merkmale der menschlichen Gelenke aktualisiert. Dadurch kann der Klassifikator sich gezielt auf bestimmte menschliche Gelenke konzentrieren, um die Art der Interaktion effektiv zu identifizieren – eine Vorgehensweise, die durch den menschlichen Wahrnehmungsprozess bei HOI motiviert ist. Insgesamt erreicht ViPLO den Stand der Technik auf zwei öffentlichen Benchmarks, wobei eine Verbesserung um +2,07 mAP auf dem HICO-DET-Datensatz erzielt wird. Der Quellcode ist unter https://github.com/Jeeseung-Park/ViPLO verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp