HyperAIHyperAI
vor 11 Tagen

DIRV: Dense Interaction Region Voting für die end-to-end Erkennung von Mensch-Objekt-Interaktionen

Hao-Shu Fang, Yichen Xie, Dian Shao, Cewu Lu
DIRV: Dense Interaction Region Voting für die end-to-end Erkennung von Mensch-Objekt-Interaktionen
Abstract

In den letzten Jahren wurden erhebliche Fortschritte bei der Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) erzielt. Allerdings sind herkömmliche zweistufige Ansätze in der Regel langsam bei der Inferenz. Andererseits konzentrieren sich bestehende einstufige Methoden hauptsächlich auf die Vereinigungsregionen von Interaktionen, was zusätzliche, störende visuelle Informationen einführt und die HOI-Erkennung beeinträchtigt. Um diese Probleme anzugehen, stellen wir in diesem Artikel einen neuen einstufigen Ansatz für die HOI-Erkennung namens DIRV vor, der auf einem neuartigen Konzept basiert, das als Interaktionsregion für das HOI-Problem definiert wird. Im Gegensatz zu früheren Ansätzen fokussiert unsere Methode auf dicht abgetastete Interaktionsregionen unterschiedlicher Skalen für jedes Mensch-Objekt-Paar, um fein abgestimmte visuelle Merkmale zu erfassen, die für die Interaktion besonders entscheidend sind. Darüber hinaus führen wir eine neue Stimmabgabestrategie ein, um die Schwächen einer einzelnen Interaktionsregion auszugleichen. Anstelle der herkömmlichen Non-Maximum-Suppression (NMS) nutzt diese Strategie gezielt überlappende Interaktionsregionen, um eine präzisere und robustere Erkennung zu erreichen. Umfangreiche Experimente auf zwei etablierten Benchmarks – V-COCO und HICO-DET – zeigen, dass unser Ansatz die bestehenden State-of-the-Art-Methoden signifikant übertrifft, sowohl hinsichtlich der Inferenzgeschwindigkeit als auch der Netzwerkarchitektur, die am leichtesten ist. Ohne zusätzliche Eingabedaten erreichen wir eine mAP von 56,1 auf V-COCO. Der Quellcode ist öffentlich verfügbar unter: https://github.com/MVIG-SJTU/DIRV

DIRV: Dense Interaction Region Voting für die end-to-end Erkennung von Mensch-Objekt-Interaktionen | Neueste Forschungsarbeiten | HyperAI