HyperAI
vor 2 Tagen

ARC-Hunyuan-Video-7B: Strukturierte Videoverstehen von realen Kurzfilmen

Yuying Ge, Yixiao Ge, Chen Li, Teng Wang, Junfu Pu, Yizhuo Li, Lu Qiu, Jin Ma, Lisheng Duan, Xinyu Zuo, Jinwen Luo, Weibo Gu, Zexuan Li, Xiaojing Zhang, Yangyu Tao, Han Hu, Di Wang, Ying Shan
ARC-Hunyuan-Video-7B: Strukturierte Videoverstehen von realen Kurzfilmen
Abstract

Kurzvideos, die von Nutzern in der realen Welt erstellt werden, insbesondere solche, die auf Plattformen wie WeChat Channel und TikTok verbreitet werden, dominieren das mobile Internet. Allerdings fehlen aktuellen großen multimodalen Modellen essentielle Fähigkeiten zur zeitlich strukturierten, detaillierten und tiefen Verständnis von Videos, die die Grundlage für effektive Video-Suche und -Empfehlung sowie für neue Video-Anwendungen darstellen. Die Verarbeitung solcher Kurzvideos ist in der Praxis aufgrund ihrer komplexen visuellen Elemente, der hohen Informationsdichte sowohl in visuellen als auch in audiovisuellen Komponenten sowie der schnellen Rhythmus, der sich auf emotionale Ausdrucksformen und die Vermittlung von Ansichten konzentriert, äußerst anspruchsvoll. Dies erfordert fortgeschrittene Schlussfolgerungsfähigkeiten, um multimodale Informationen – visuell, audio und textuell – effektiv zu integrieren. In dieser Arbeit führen wir ARC-Hunyuan-Video ein, ein multimodales Modell, das visuelle, auditive und textuelle Signale aus Rohvideos end-to-end verarbeitet, um eine strukturierte Verständnisfähigkeit zu ermöglichen. Das Modell ist in der Lage, Video-Kommentare und -Zusammenfassungen mit Zeittags auf mehreren Granularitätsstufen zu generieren, offene Fragen zu Videos zu beantworten, zeitliche Referenzen in Videos zu identifizieren und Video-Reasoning durchzuführen. Durch die Nutzung von hochwertigen Daten aus einem automatisierten Annotierungsprozess wurde unser kompakteres Modell mit 7B Parametern durch ein umfassendes Trainingsprogramm geschult: Vortrainierung, Anweisungs-Feinabstimmung, Cold Start, Reinforcement Learning (RL) nach der Vortrainierung und abschließende Anweisungs-Feinabstimmung. Quantitative Bewertungen an unserem eingeführten Benchmark-Testset ShortVid-Bench sowie qualitative Vergleiche zeigen seine starke Leistungsfähigkeit bei der Verarbeitung realer Kurzvideos. Zudem unterstützt es Zero-Shot- oder Feinabstimmung mit wenigen Beispielen für verschiedene Anwendungsfälle. Die praktische Implementierung unseres Modells in der Produktion hat messbare und nachweisbare Verbesserungen in Nutzerbindung und -zufriedenheit erbracht. Dieser Erfolg wird durch seine bemerkenswerte Effizienz gestützt; Stress-Tests zeigen, dass eine Minute Video auf einer H20-GPU in nur 10 Sekunden verarbeitet werden kann.