HyperAIHyperAI

Command Palette

Search for a command to run...

Ego-R1: Kette-von-Werkzeug-Gedanken für die Analyse ultra-langer egozentrischer Videos

Shulin Tian Ruiqi Wang Hongming Guo Penghao Wu Yuhao Dong Xiuying Wang Jingkang Yang Hao Zhang Hongyuan Zhu Ziwei Liu

Zusammenfassung

Wir stellen Ego-R1 vor, einen neuen Ansatz zur Analyse von ultralangen (d.h., über Tage und Wochen) egozentrischen Videos, der einen strukturierten Prozess des „Chain-of-Tool-Thought“ (CoTT) nutzt, der durch einen Ego-R1-Agenten orchestriert wird, der mittels Reinforcement Learning (RL) trainiert wurde. Inspiriert von menschlichen Problemlösungsstrategien zerlegt CoTT komplexe Analysen in modulare Schritte, wobei der RL-Agent in jedem Schritt spezifische Werkzeuge aufruft, um iterativ und kollaborativ Teilfragen zu beantworten, die sich auf Aufgaben wie zeitliche Rückgewinnung und multimodale Verständnisbeziehungen konzentrieren. Wir entwerfen ein zweistufiges Trainingsparadigma, das die überwachte Feinabstimmung (SFT) eines vortrainierten Sprachmodells unter Verwendung von CoTT-Daten und RL umfasst, um unseren Agenten zu befähigen, dynamisch schrittweise Werkzeuge für langfristige Analyse vorzuschlagen. Um das Training zu erleichtern, haben wir einen Datensatz namens Ego-R1 Data erstellt, der aus Ego-CoTT-25K für SFT und Ego-QA-4.4K für RL besteht. Des Weiteren wird unser Ego-R1-Agent anhand einer neu zusammengestellten Video-QA-Benchmark-Sammlung namens Ego-R1 Bench evaluiert, die menschlich verifizierte QA-Paare aus hybriden Quellen enthält. Ausführliche Ergebnisse zeigen, dass die dynamische, werkzeuggestützte Kette des Denkens durch unseren Ego-R1-Agenten die einzigartigen Herausforderungen des Verständnisses von ultralangen egozentrischen Videos effektiv bewältigen kann und die Zeitspanne erheblich von wenigen Stunden auf eine Woche erweitert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp