HyperAI초신경
하루 전

ARC-Hunyuan-Video-7B: 실제 세계의 짧은 영상에 대한 구조화된 비디오 이해

Yuying Ge, Yixiao Ge, Chen Li, Teng Wang, Junfu Pu, Yizhuo Li, Lu Qiu, Jin Ma, Lisheng Duan, Xinyu Zuo, Jinwen Luo, Weibo Gu, Zexuan Li, Xiaojing Zhang, Yangyu Tao, Han Hu, Di Wang, Ying Shan
ARC-Hunyuan-Video-7B: 실제 세계의 짧은 영상에 대한 구조화된 비디오 이해
초록

실제 세계의 사용자 생성 짧은 동영상, 특히 WeChat Channel 및 TikTok와 같은 플랫폼에서 배포되는 동영상은 모바일 인터넷을 지배하고 있다. 그러나 현재의 대규모 다중모달 모델은 효과적인 동영상 검색 및 추천, 그리고 새로운 동영상 애플리케이션의 기초가 되는 필수적인 시간 구조화, 세부적, 깊이 있는 동영상 이해 능력이 부족하다. 실제 세계의 짧은 동영상은 복잡한 시각적 요소, 시각 및 음성 정보의 높은 밀도, 감정 표현과 주장을 강조하는 빠른 템포로 인해 실제로 이해하는 것이 어렵다. 이는 시각, 음성, 텍스트를 포함한 다양한 모달 정보를 효과적으로 통합하기 위한 고급 추론 능력을 요구한다. 본 연구에서는, 원시 동영상 입력에서 시각, 음성, 텍스트 신호를 엔드-투-엔드로 처리하여 구조화된 이해를 수행하는 다중모달 모델인 ARC-Hunyuan-Video를 소개한다. 이 모델은 다중 차원의 타임스탬프가 있는 동영상 캡션 생성 및 요약, 개방형 질문에 대한 답변, 시간적 동영상 기반, 동영상 추론 등의 기능을 수행할 수 있다. 자동화된 주석 처리 파이프라인에서 얻은 고품질 데이터를 활용하여, 우리는 7B 파라미터를 가진 작은 크기의 모델을 전반적인 훈련 프로세스를 통해 훈련시켰다. 이 훈련 프로세스는 사전 훈련, 지시어를 통한 세부 조정, 초기 시작, 강화 학습(RL) 후 훈련, 그리고 최종 지시어를 통한 세부 조정으로 구성된다. 본 연구에서 제안한 기준 데이터셋인 ShortVid-Bench에 대한 정량적 평가와 정성적 비교를 통해, 본 모델이 실제 세계의 동영상 이해에서 우수한 성능을 보임을 입증하였다. 또한, 다양한 하류 애플리케이션에 대해 zero-shot 또는 적은 수의 샘플을 활용한 세부 조정을 지원한다. 본 모델의 실제 세계에서의 배포는 사용자 참여도와 만족도에 실질적이고 측정 가능한 개선을 가져왔다. 이 성공은 놀랄 만한 효율성에 기반하며, H20 GPU에서 1분 길이의 동영상에 대해 추론 시간이 단 10초에 불과하다는 스트레스 테스트 결과로 입증되었다.