vor 8 Monaten

Shulin Tian Ruiqi Wang Hongming Guo Penghao Wu Yuhao Dong Xiuying Wang Jingkang Yang Hao Zhang Hongyuan Zhu Ziwei Liu

Zusammenfassung

Wir stellen Ego-R1 vor, einen neuen Ansatz zur Analyse von ultralangen (d.h., über Tage und Wochen) egozentrischen Videos, der einen strukturierten Prozess des „Chain-of-Tool-Thought“ (CoTT) nutzt, der durch einen Ego-R1-Agenten orchestriert wird, der mittels Reinforcement Learning (RL) trainiert wurde. Inspiriert von menschlichen Problemlösungsstrategien zerlegt CoTT komplexe Analysen in modulare Schritte, wobei der RL-Agent in jedem Schritt spezifische Werkzeuge aufruft, um iterativ und kollaborativ Teilfragen zu beantworten, die sich auf Aufgaben wie zeitliche Rückgewinnung und multimodale Verständnisbeziehungen konzentrieren. Wir entwerfen ein zweistufiges Trainingsparadigma, das die überwachte Feinabstimmung (SFT) eines vortrainierten Sprachmodells unter Verwendung von CoTT-Daten und RL umfasst, um unseren Agenten zu befähigen, dynamisch schrittweise Werkzeuge für langfristige Analyse vorzuschlagen. Um das Training zu erleichtern, haben wir einen Datensatz namens Ego-R1 Data erstellt, der aus Ego-CoTT-25K für SFT und Ego-QA-4.4K für RL besteht. Des Weiteren wird unser Ego-R1-Agent anhand einer neu zusammengestellten Video-QA-Benchmark-Sammlung namens Ego-R1 Bench evaluiert, die menschlich verifizierte QA-Paare aus hybriden Quellen enthält. Ausführliche Ergebnisse zeigen, dass die dynamische, werkzeuggestützte Kette des Denkens durch unseren Ego-R1-Agenten die einzigartigen Herausforderungen des Verständnisses von ultralangen egozentrischen Videos effektiv bewältigen kann und die Zeitspanne erheblich von wenigen Stunden auf eine Woche erweitert.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Videobegreifen

Reasoning

Visuelle Fragebeantwortung

Shulin Tian Ruiqi Wang Hongming Guo Penghao Wu Yuhao Dong Xiuying Wang Jingkang Yang Hao Zhang Hongyuan Zhu Ziwei Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Videobegreifen

Reasoning

Visuelle Fragebeantwortung

Shulin Tian Ruiqi Wang Hongming Guo Penghao Wu Yuhao Dong Xiuying Wang Jingkang Yang Hao Zhang Hongyuan Zhu Ziwei Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Ego-R1: Kette-von-Werkzeug-Gedanken für die Analyse ultra-langer egozentrischer Videos | Paper | HyperAI

Command Palette

Ego-R1: Kette-von-Werkzeug-Gedanken für die Analyse ultra-langer egozentrischer Videos

Shulin Tian Ruiqi Wang Hongming Guo Penghao Wu Yuhao Dong Xiuying Wang Jingkang Yang Hao Zhang Hongyuan Zhu Ziwei Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ego-R1: Kette-von-Werkzeug-Gedanken für die Analyse ultra-langer egozentrischer Videos

Shulin Tian Ruiqi Wang Hongming Guo Penghao Wu Yuhao Dong Xiuying Wang Jingkang Yang Hao Zhang Hongyuan Zhu Ziwei Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ego-R1: Kette-von-Werkzeug-Gedanken für die Analyse ultra-langer egozentrischer Videos

Shulin Tian Ruiqi Wang Hongming Guo Penghao Wu Yuhao Dong Xiuying Wang Jingkang Yang Hao Zhang Hongyuan Zhu Ziwei Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters