HyperAIHyperAI
vor 2 Monaten

Kurzfristige Objektinteraktionsvorhersage mit entkoppeltem Objekterkennung @ Ego4D Kurzfristige Objektinteraktionsvorhersage Challenge

Hyunjin Cho; Dong Un Kang; Se Young Chun
Kurzfristige Objektinteraktionsvorhersage mit entkoppeltem Objekterkennung @ Ego4D Kurzfristige Objektinteraktionsvorhersage Challenge
Abstract

Die Antizipation kurzfristiger Objektinteraktionen ist eine wichtige Aufgabe bei der Analyse egozentrischer Videos. Sie umfasst präzise Vorhersagen zukünftiger Interaktionen und deren Zeiten sowie die Kategorien und Positionen der beteiligten aktiven Objekte. Um die Komplexität dieser Aufgabe zu reduzieren, zerlegt unser vorgeschlagener Ansatz, SOIA-DOD, sie effektiv in 1) die Erkennung von aktiven Objekten und 2) die Klassifizierung von Interaktionen und die Vorhersage ihrer Timing. Unser Verfahren erkennt zunächst alle potentiellen aktiven Objekte im letzten Frame des egozentrischen Videos durch Feinabstimmung eines vortrainierten YOLOv9 (You Only Look Once Version 9). Anschließend kombinieren wir diese potentiellen aktiven Objekte als Abfrage mit einem Transformer-Encoder, wodurch das vielversprechendste nächste aktive Objekt identifiziert und dessen zukünftige Interaktion sowie die Zeit bis zum Kontakt vorhergesagt werden können. Experimentelle Ergebnisse zeigen, dass unser Verfahren auf dem Challenge-Testset den aktuellen Stand der Technik übertrifft und die beste Leistung bei der Vorhersage des nächsten aktiven Objekts und seiner Interaktion erzielt. Schließlich rangierte unser Vorschlag insgesamt auf Platz drei im Top-5 mAP (mean Average Precision), wenn man die Zeit-bis-Kontakt-Vorhersagen einbezieht. Der Quellcode ist unter https://github.com/KeenyJin/SOIA-DOD verfügbar.

Kurzfristige Objektinteraktionsvorhersage mit entkoppeltem Objekterkennung @ Ego4D Kurzfristige Objektinteraktionsvorhersage Challenge | Neueste Forschungsarbeiten | HyperAI