Ego-R1: Kette-von-Werkzeug-Gedanken für die Analyse ultra-langer egozentrischer Videos

Wir stellen Ego-R1 vor, einen neuen Ansatz zur Analyse von ultralangen (d.h., über Tage und Wochen) egozentrischen Videos, der einen strukturierten Prozess des „Chain-of-Tool-Thought“ (CoTT) nutzt, der durch einen Ego-R1-Agenten orchestriert wird, der mittels Reinforcement Learning (RL) trainiert wurde. Inspiriert von menschlichen Problemlösungsstrategien zerlegt CoTT komplexe Analysen in modulare Schritte, wobei der RL-Agent in jedem Schritt spezifische Werkzeuge aufruft, um iterativ und kollaborativ Teilfragen zu beantworten, die sich auf Aufgaben wie zeitliche Rückgewinnung und multimodale Verständnisbeziehungen konzentrieren. Wir entwerfen ein zweistufiges Trainingsparadigma, das die überwachte Feinabstimmung (SFT) eines vortrainierten Sprachmodells unter Verwendung von CoTT-Daten und RL umfasst, um unseren Agenten zu befähigen, dynamisch schrittweise Werkzeuge für langfristige Analyse vorzuschlagen. Um das Training zu erleichtern, haben wir einen Datensatz namens Ego-R1 Data erstellt, der aus Ego-CoTT-25K für SFT und Ego-QA-4.4K für RL besteht. Des Weiteren wird unser Ego-R1-Agent anhand einer neu zusammengestellten Video-QA-Benchmark-Sammlung namens Ego-R1 Bench evaluiert, die menschlich verifizierte QA-Paare aus hybriden Quellen enthält. Ausführliche Ergebnisse zeigen, dass die dynamische, werkzeuggestützte Kette des Denkens durch unseren Ego-R1-Agenten die einzigartigen Herausforderungen des Verständnisses von ultralangen egozentrischen Videos effektiv bewältigen kann und die Zeitspanne erheblich von wenigen Stunden auf eine Woche erweitert.