HyperAIHyperAI

Command Palette

Search for a command to run...

DIRV: Dense Interaction Region Voting für die end-to-end Erkennung von Mensch-Objekt-Interaktionen

Hao-Shu Fang Yichen Xie Dian Shao Cewu Lu

Zusammenfassung

In den letzten Jahren wurden erhebliche Fortschritte bei der Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) erzielt. Allerdings sind herkömmliche zweistufige Ansätze in der Regel langsam bei der Inferenz. Andererseits konzentrieren sich bestehende einstufige Methoden hauptsächlich auf die Vereinigungsregionen von Interaktionen, was zusätzliche, störende visuelle Informationen einführt und die HOI-Erkennung beeinträchtigt. Um diese Probleme anzugehen, stellen wir in diesem Artikel einen neuen einstufigen Ansatz für die HOI-Erkennung namens DIRV vor, der auf einem neuartigen Konzept basiert, das als Interaktionsregion für das HOI-Problem definiert wird. Im Gegensatz zu früheren Ansätzen fokussiert unsere Methode auf dicht abgetastete Interaktionsregionen unterschiedlicher Skalen für jedes Mensch-Objekt-Paar, um fein abgestimmte visuelle Merkmale zu erfassen, die für die Interaktion besonders entscheidend sind. Darüber hinaus führen wir eine neue Stimmabgabestrategie ein, um die Schwächen einer einzelnen Interaktionsregion auszugleichen. Anstelle der herkömmlichen Non-Maximum-Suppression (NMS) nutzt diese Strategie gezielt überlappende Interaktionsregionen, um eine präzisere und robustere Erkennung zu erreichen. Umfangreiche Experimente auf zwei etablierten Benchmarks – V-COCO und HICO-DET – zeigen, dass unser Ansatz die bestehenden State-of-the-Art-Methoden signifikant übertrifft, sowohl hinsichtlich der Inferenzgeschwindigkeit als auch der Netzwerkarchitektur, die am leichtesten ist. Ohne zusätzliche Eingabedaten erreichen wir eine mAP von 56,1 auf V-COCO. Der Quellcode ist öffentlich verfügbar unter: https://github.com/MVIG-SJTU/DIRV


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp