HyperAIHyperAI

Command Palette

Search for a command to run...

Ohne einige Eier zu zerbrechen, kann man keine Omelette machen: Plausible Action Anticipation mit großen Video-Sprache-Modellen

Himangi Mittal Nakul Agarwal Shao-Yuan Lo Kwonjoon Lee

Zusammenfassung

Wir stellen PlausiVL vor, ein großes Video-Sprache-Modell zur Vorhersage von Handlungssequenzen, die im realen Weltgeschehen plausibel sind. Obwohl erhebliche Anstrengungen unternommen wurden, um zukünftige Handlungen vorherzusagen, berücksichtigen bisherige Ansätze den Aspekt der Plausibilität einer Handlungssequenz nicht ausreichend. Um diese Lücke zu schließen, untersuchen wir in unserer Arbeit die generativen Fähigkeiten eines großen Video-Sprache-Modells und entwickeln zudem ein tieferes Verständnis für Plausibilität innerhalb von Handlungssequenzen, indem wir zwei objektive Verlustfunktionen einführen: einen gegenfaktischen Verlust für die Lernung plausibler Handlungssequenzen sowie einen Verlust für die Wiederholung von Aktionen über lange Zeiträume. Wir nutzen zeitliche logische Constraints sowie logische Constraints für Verb-Nomen-Aktionspaare, um unplausible bzw. gegenfaktische Handlungssequenzen zu generieren, die dann zur Ausbildung des Modells mit dem Verlust für plausibele Handlungssequenzen verwendet werden. Dieser Verlust ermöglicht es dem Modell, zwischen plausiblen und unplausiblen Handlungsabläufen zu unterscheiden und unterstützt zudem die Lernung impliziter zeitlicher Hinweise, die für die Aufgabe der Handlungsprognose entscheidend sind. Der Verlust für die langfristige Wiederholung von Aktionen setzt eine höhere Strafe für jene Aktionen an, die über einen längeren zeitlichen Horizont tendenziell wiederholt werden. Durch diese Strafstruktur kann das Modell vielfältige und gleichzeitig plausibel erscheinende Handlungssequenzen generieren. Wir evaluieren unseren Ansatz an zwei großen Datensätzen, Ego4D und EPIC-Kitchens-100, und zeigen eine Verbesserung bei der Aufgabe der Handlungsprognose.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp