HyperAIHyperAI

Command Palette

Search for a command to run...

ERNet: Effiziente und zuverlässige Detektion von Mensch-Objekt-Interaktionen

Massimo Tistarelli John See KokSheik Wong Joanne Mun-Yee Lim Vishnu Monn Baskaran JunYi Lim

Zusammenfassung

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) ermöglicht es, wie Personen mit Objekten interagieren, was für autonome Systeme wie selbstfahrende Fahrzeuge und kooperative Roboter von großem Nutzen ist. Allerdings leiden aktuelle HOI-Detektoren häufig unter ineffizienten Modellen und unzuverlässigen Vorhersagen, was deren Einsatzpotenzial in realen Anwendungsszenarien einschränkt. In diesem Paper begegnen wir diesen Herausforderungen durch die Einführung von ERNet, einem end-to-end trainierbaren convolutional-transformer-basierten Netzwerk für die HOI-Erkennung. Das vorgeschlagene Modell nutzt eine effiziente, mehrskalige verformbare Aufmerksamkeit, um wesentliche HOI-Charakteristika effektiv zu erfassen. Zudem präsentieren wir einen neuartigen Detektions-Aufmerksamkeitsmodul, der semantisch reiche Instanz- und Interaktions-Token adaptiv generiert. Diese Token werden bereits vorab detektiert, um anfängliche Regionen- und Vektorvorschläge zu erzeugen, die gleichzeitig als Abfragen dienen und somit den Prozess der Merkmalsverfeinerung in den Transformer-Decodern verbessern. Mehrere wirksame Verbesserungen werden zudem implementiert, um die Lernfähigkeit der HOI-Darstellung weiter zu steigern. Darüber hinaus integrieren wir einen Rahmen zur Schätzung der Vorhersageunsicherheit in die Klassifikationsköpfe für Instanzen und Interaktionen, um die Unsicherheit hinter jeder Vorhersage quantitativ zu erfassen. Dadurch gelingt es uns, HOI-Interaktionen auch unter anspruchsvollen Bedingungen genau und zuverlässig zu erkennen. Experimentelle Ergebnisse auf den Datensätzen HICO-Det, V-COCO und HOI-A zeigen, dass das vorgeschlagene Modell sowohl in Bezug auf Detektionsgenauigkeit als auch Trainingseffizienz den derzeitigen Stand der Technik übertrifft. Der Quellcode ist öffentlich über https://github.com/Monash-CyPhi-AI-Research-Lab/ernet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp