vor 9 Tagen

Ohne einige Eier zu zerbrechen, kann man keine Omelette machen: Plausible Action Anticipation mit großen Video-Sprache-Modellen

Himangi Mittal, Nakul Agarwal, Shao-Yuan Lo, Kwonjoon Lee

Abstract

Wir stellen PlausiVL vor, ein großes Video-Sprache-Modell zur Vorhersage von Handlungssequenzen, die im realen Weltgeschehen plausibel sind. Obwohl erhebliche Anstrengungen unternommen wurden, um zukünftige Handlungen vorherzusagen, berücksichtigen bisherige Ansätze den Aspekt der Plausibilität einer Handlungssequenz nicht ausreichend. Um diese Lücke zu schließen, untersuchen wir in unserer Arbeit die generativen Fähigkeiten eines großen Video-Sprache-Modells und entwickeln zudem ein tieferes Verständnis für Plausibilität innerhalb von Handlungssequenzen, indem wir zwei objektive Verlustfunktionen einführen: einen gegenfaktischen Verlust für die Lernung plausibler Handlungssequenzen sowie einen Verlust für die Wiederholung von Aktionen über lange Zeiträume. Wir nutzen zeitliche logische Constraints sowie logische Constraints für Verb-Nomen-Aktionspaare, um unplausible bzw. gegenfaktische Handlungssequenzen zu generieren, die dann zur Ausbildung des Modells mit dem Verlust für plausibele Handlungssequenzen verwendet werden. Dieser Verlust ermöglicht es dem Modell, zwischen plausiblen und unplausiblen Handlungsabläufen zu unterscheiden und unterstützt zudem die Lernung impliziter zeitlicher Hinweise, die für die Aufgabe der Handlungsprognose entscheidend sind. Der Verlust für die langfristige Wiederholung von Aktionen setzt eine höhere Strafe für jene Aktionen an, die über einen längeren zeitlichen Horizont tendenziell wiederholt werden. Durch diese Strafstruktur kann das Modell vielfältige und gleichzeitig plausibel erscheinende Handlungssequenzen generieren. Wir evaluieren unseren Ansatz an zwei großen Datensätzen, Ego4D und EPIC-Kitchens-100, und zeigen eine Verbesserung bei der Aufgabe der Handlungsprognose.