HyperAIHyperAI

Command Palette

Search for a command to run...

FGAHOI: Feinabgestimmte Anchors für die Erkennung von Mensch-Objekt-Interaktionen

Shuailei Ma Yuefeng Wang Shanze Wang Ying Wei

Zusammenfassung

Human-Object Interaction (HOI), ein zentrales Problem im Bereich des Computersehens, erfordert die Lokalisierung von Mensch-Objekt-Paaren sowie die Identifizierung der zwischen ihnen bestehenden interaktiven Beziehungen. Im Vergleich zu einzelnen Objektinstanzen weist die HOI-Instanz eine größere Spannweite in räumlicher Ausdehnung, Skalierung und Aufgabenkomplexität auf, wodurch ihre Erkennung stärker von störenden Hintergründen beeinflusst wird. Um die Störwirkung von rauschhaften Hintergründen auf die HOI-Erkennung zu verringern, ist es notwendig, Informationen aus dem Eingabebild zu berücksichtigen, um feinabgestimmte Anchor-Regionen zu generieren, die dann zur Orientierung der Erkennung von HOI-Instanzen herangezogen werden. Dies ist jedoch aufgrund folgender Herausforderungen schwierig: i) Die Extraktion zentraler Merkmale aus Bildern mit komplexen Hintergründen bleibt weiterhin eine offene Frage. ii) Die semantische Ausrichtung der extrahierten Merkmale mit den Abfrage-Embeddings stellt ebenfalls ein schwerwiegendes Problem dar. In diesem Artikel wird ein neuartiger, end-to-end-transformerbasierter Rahmen (FGAHOI) vorgestellt, der diese Probleme adressiert. FGAHOI besteht aus drei spezialisierten Komponenten: Multi-Scale Sampling (MSS), Hierarchisches räumlich-orientiertes Zusammenführen (HSAM) sowie eine auf die Aufgabe abgestimmte Zusammenführungsmechanik (TAM). MSS extrahiert Merkmale von Menschen, Objekten und Interaktionsbereichen aus rauschhaften Hintergründen für HOI-Instanzen unterschiedlicher Skalen. HSAM und TAM führen die extrahierten Merkmale und Abfrage-Embeddings nacheinander auf hierarchischer räumlicher und aufgabenbezogener Ebene semantisch ausgerichtet zusammen. Gleichzeitig wurde eine neuartige Trainingsstrategie, die sogenannte „Stage-wise Training Strategy“, entwickelt, um den durch die hohe Komplexität der Aufgaben durch FGAHOI verursachten Trainingsdruck zu reduzieren. Darüber hinaus werden zwei Ansätze zur Messung der Schwierigkeit der HOI-Erkennung vorgestellt sowie ein neuer Datensatz, der HOI-SDC, für die beiden Herausforderungen der HOI-Instanzerkennung (ungleichmäßige räumliche Verteilung von Mensch-Objekt-Paaren und langstreckige visuelle Modellierung von Mensch-Objekt-Paaren) vorgeschlagen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp