Semantisch geleitete Darstellungslernverfahren für die Aktionsvorhersage

Die Vorhersage zukünftiger Aktivitäten aus einer teilweise beobachteten Ereignissequenz, auch Action Anticipation genannt, ist eine herausfordernde Aufgabe, die durch inhärente Unsicherheiten der Zukunft sowie die Komplexität des Schlussfolgerns über miteinander verbundene Aktionen geprägt ist. Im Gegensatz zu früheren Ansätzen, die sich auf die Verbesserung visueller und zeitlicher Information durch Extrapolation konzentrieren, legen wir den Fokus auf das Lernen von Aktionsrepräsentationen, die bewusst ihre semantische Interconnectedness berücksichtigen, basierend auf prototypischen Aktionsmustern und kontextuellen Ko-Vorkommnissen. Hierfür schlagen wir den neuartigen Semantically Guided Representation Learning (S-GEAR)-Ansatz vor. S-GEAR lernt visuelle Aktionsprototypen und nutzt Sprachmodelle, um deren Beziehungen zu strukturieren und somit Semantik zu induzieren. Um die Wirksamkeit von S-GEAR zu evaluieren, testen wir es an vier Benchmark-Datenbanken für Action Anticipation und erzielen gegenüber vorherigen Ansätzen signifikante Verbesserungen: +3,5, +2,7 und +3,5 absolute Punkte bei der Top-1-Accuracy auf Epic-Kitchen 55, EGTEA Gaze+ und 50 Salads, sowie +0,8 bei der Top-5-Recall auf Epic-Kitchens 100. Zudem stellen wir fest, dass S-GEAR die geometrischen Zusammenhänge zwischen Aktionen effektiv von der Sprache auf die visuellen Prototypen überträgt. Schließlich eröffnet S-GEAR neue Forschungsperspektiven für Vorhersageaufgaben, indem er die komplexe Wirkung der semantischen Interconnectedness von Aktionen aufzeigt.