Vorhersage der Interaktion zwischen Mensch und Objekt in Videos durch Blickverfolgung

Das Verständnis der Interaktionen zwischen Menschen und Objekten (HOIs) in einem Video ist entscheidend, um eine visuelle Szene vollständig zu erfassen. Diese Forschungsrichtung wurde bisher durch die Erkennung von HOIs in Bildern und neuerdings in Videos angegangen. Allerdings bleibt die video-basierte HOI-Antizipation aus der Drittperson-Perspektive unterrepräsentiert. In dieser Arbeit entwickeln wir ein Framework, das aktuelle HOIs erkennt und zukünftige HOIs in Videos antizipiert. Wir schlagen vor, menschliche Blickinformationen zu nutzen, da Menschen häufig auf ein Objekt fokussieren, bevor sie mit ihm interagieren. Diese Blickmerkmale werden zusammen mit den Szenenkontexten und den visuellen Erscheinungen von Mensch-Objekt-Paaren durch einen raumzeitlichen Transformer fusioniert. Um das Modell in der HOI-Antizipation im Mehrpersonenszenario zu evaluieren, schlagen wir eine Reihe personenspezifischer Multilabel-Metriken vor. Unser Modell wird auf dem VidHOI-Datensatz trainiert und validiert, der Videos des täglichen Lebens enthält und derzeit der größte video-basierte HOI-Datensatz ist. Die experimentellen Ergebnisse bei der HOI-Erkennung zeigen, dass unser Ansatz die Baseline um 36,3 % relativ verbessert. Darüber hinaus führen wir eine umfangreiche Abstraktionsstudie durch, um die Effektivität unserer Anpassungen und Erweiterungen des raumzeitlichen Transformers zu demonstrieren. Unser Code ist öffentlich verfügbar unter https://github.com/nizhf/hoi-prediction-gaze-transformer.