HyperAIHyperAI

Command Palette

Search for a command to run...

Effiziente zweistufige Detektion von Mensch-Objekt-Interaktionen mit einem neuartigen Unary-Pairwise Transformer

Frederic Z. Zhang Dylan Campbell Stephen Gould

Zusammenfassung

Neuere Entwicklungen bei Transformer-Modellen für visuelle Daten haben zu erheblichen Verbesserungen bei Erkennungs- und Detektionsaufgaben geführt. Insbesondere die Verwendung lernbarer Queries anstelle von Region-Vorschlägen hat eine neue Klasse einstufiger Detektionsmodelle hervorgebracht, die durch den Detection Transformer (DETR) maßgeblich vorangetrieben wurde. Varianten dieses einstufigen Ansatzes haben seither die Forschung auf dem Gebiet der Mensch-Objekt-Interaktion (Human-Object Interaction, HOI) dominiert. Der Erfolg solcher einstufiger HOI-Detektoren beruht jedoch weitgehend auf der Repräsentationskraft von Transformers. Wir stellten fest, dass zwei-stufige Varianten derselben Modelle, wenn mit demselben Transformer ausgestattet, eine höhere Leistungsfähigkeit und eine bessere Speichereffizienz aufweisen können, während sie nur einen Bruchteil der Trainingszeit benötigen. In dieser Arbeit stellen wir den Unary-Pairwise Transformer vor, einen zweistufigen Detektor, der sowohl einstellige (unary) als auch paarweise (pairwise) Repräsentationen für HOIs nutzt. Wir beobachten, dass die einstellige und die paarweise Komponente unseres Transformer-Netzwerks sich spezialisieren: Während die einstellige Komponente vorzugsweise die Scores positiver Beispiele erhöht, senkt die paarweise Komponente die Scores negativer Beispiele. Wir evaluieren unsere Methode auf den Datensätzen HICO-DET und V-COCO und erreichen dabei deutlich bessere Ergebnisse als aktuelle State-of-the-Art-Ansätze. Im Inference-Modus erreicht unser Modell mit ResNet50 auf einer einzigen GPU annähernd Echtzeitleistung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Effiziente zweistufige Detektion von Mensch-Objekt-Interaktionen mit einem neuartigen Unary-Pairwise Transformer | Paper | HyperAI