HyperAIHyperAI
vor 12 Tagen

ERNet: Effiziente und zuverlässige Detektion von Mensch-Objekt-Interaktionen

{Massimo Tistarelli, John See, KokSheik Wong, Joanne Mun-Yee Lim, Vishnu Monn Baskaran, JunYi Lim}
Abstract

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) ermöglicht es, wie Personen mit Objekten interagieren, was für autonome Systeme wie selbstfahrende Fahrzeuge und kooperative Roboter von großem Nutzen ist. Allerdings leiden aktuelle HOI-Detektoren häufig unter ineffizienten Modellen und unzuverlässigen Vorhersagen, was deren Einsatzpotenzial in realen Anwendungsszenarien einschränkt. In diesem Paper begegnen wir diesen Herausforderungen durch die Einführung von ERNet, einem end-to-end trainierbaren convolutional-transformer-basierten Netzwerk für die HOI-Erkennung. Das vorgeschlagene Modell nutzt eine effiziente, mehrskalige verformbare Aufmerksamkeit, um wesentliche HOI-Charakteristika effektiv zu erfassen. Zudem präsentieren wir einen neuartigen Detektions-Aufmerksamkeitsmodul, der semantisch reiche Instanz- und Interaktions-Token adaptiv generiert. Diese Token werden bereits vorab detektiert, um anfängliche Regionen- und Vektorvorschläge zu erzeugen, die gleichzeitig als Abfragen dienen und somit den Prozess der Merkmalsverfeinerung in den Transformer-Decodern verbessern. Mehrere wirksame Verbesserungen werden zudem implementiert, um die Lernfähigkeit der HOI-Darstellung weiter zu steigern. Darüber hinaus integrieren wir einen Rahmen zur Schätzung der Vorhersageunsicherheit in die Klassifikationsköpfe für Instanzen und Interaktionen, um die Unsicherheit hinter jeder Vorhersage quantitativ zu erfassen. Dadurch gelingt es uns, HOI-Interaktionen auch unter anspruchsvollen Bedingungen genau und zuverlässig zu erkennen. Experimentelle Ergebnisse auf den Datensätzen HICO-Det, V-COCO und HOI-A zeigen, dass das vorgeschlagene Modell sowohl in Bezug auf Detektionsgenauigkeit als auch Trainingseffizienz den derzeitigen Stand der Technik übertrifft. Der Quellcode ist öffentlich über https://github.com/Monash-CyPhi-AI-Research-Lab/ernet verfügbar.

ERNet: Effiziente und zuverlässige Detektion von Mensch-Objekt-Interaktionen | Neueste Forschungsarbeiten | HyperAI