HyperAIHyperAI

Command Palette

Search for a command to run...

QAHOI: Abfragenbasierte Anchors für die Erkennung von Mensch-Objekt-Interaktionen

Junwen Chen Keiji Yanai

Zusammenfassung

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) als nachgeschaltete Aufgabe der Objekterkennung erfordert die Lokalisierung von Mensch-Objekt-Paaren sowie die Extraktion semantischer Beziehungen zwischen Mensch und Objekt aus einem Bild. In letzter Zeit sind einstufige Ansätze aufgrund ihrer hohen Effizienz zu einem neuen Trend für diese Aufgabe geworden. Allerdings konzentrieren sich diese Ansätze hauptsächlich auf die Erkennung möglicher Interaktionspunkte oder die Filterung von Mensch-Objekt-Paaren, wobei die Variabilität der Lage und Größe verschiedener Objekte auf unterschiedlichen räumlichen Skalen vernachlässigt wird. Um dieses Problem anzugehen, schlagen wir eine transformerbasierte Methode namens QAHOI (Query-Based Anchors for Human-Object Interaction detection) vor, die eine mehrskalige Architektur nutzt, um Merkmale aus verschiedenen räumlichen Skalen zu extrahieren, und querybasierte Anchors verwendet, um alle Elemente einer HOI-Instanz vorherzusagen. Wir untersuchen zudem, dass ein leistungsfähiges Backbone die Genauigkeit von QAHOI erheblich steigert, wobei QAHOI mit einem transformerbasierten Backbone auf dem HICO-DET-Benchmark signifikante Vorteile gegenüber aktuellen State-of-the-Art-Methoden zeigt. Der Quellcode ist unter \href\href{https://github.com/cjw2021/QAHOI}{\text{dieser https-URL}}\href verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp