ARC-Hunyuan-Video-7B: 실제 세계의 짧은 영상에 대한 구조화된 비디오 이해

실제 세계의 사용자 생성 짧은 동영상, 특히 WeChat Channel 및 TikTok와 같은 플랫폼에서 배포되는 동영상은 모바일 인터넷을 지배하고 있다. 그러나 현재의 대규모 다중모달 모델은 효과적인 동영상 검색 및 추천, 그리고 새로운 동영상 애플리케이션의 기초가 되는 필수적인 시간 구조화, 세부적, 깊이 있는 동영상 이해 능력이 부족하다. 실제 세계의 짧은 동영상은 복잡한 시각적 요소, 시각 및 음성 정보의 높은 밀도, 감정 표현과 주장을 강조하는 빠른 템포로 인해 실제로 이해하는 것이 어렵다. 이는 시각, 음성, 텍스트를 포함한 다양한 모달 정보를 효과적으로 통합하기 위한 고급 추론 능력을 요구한다. 본 연구에서는, 원시 동영상 입력에서 시각, 음성, 텍스트 신호를 엔드-투-엔드로 처리하여 구조화된 이해를 수행하는 다중모달 모델인 ARC-Hunyuan-Video를 소개한다. 이 모델은 다중 차원의 타임스탬프가 있는 동영상 캡션 생성 및 요약, 개방형 질문에 대한 답변, 시간적 동영상 기반, 동영상 추론 등의 기능을 수행할 수 있다. 자동화된 주석 처리 파이프라인에서 얻은 고품질 데이터를 활용하여, 우리는 7B 파라미터를 가진 작은 크기의 모델을 전반적인 훈련 프로세스를 통해 훈련시켰다. 이 훈련 프로세스는 사전 훈련, 지시어를 통한 세부 조정, 초기 시작, 강화 학습(RL) 후 훈련, 그리고 최종 지시어를 통한 세부 조정으로 구성된다. 본 연구에서 제안한 기준 데이터셋인 ShortVid-Bench에 대한 정량적 평가와 정성적 비교를 통해, 본 모델이 실제 세계의 동영상 이해에서 우수한 성능을 보임을 입증하였다. 또한, 다양한 하류 애플리케이션에 대해 zero-shot 또는 적은 수의 샘플을 활용한 세부 조정을 지원한다. 본 모델의 실제 세계에서의 배포는 사용자 참여도와 만족도에 실질적이고 측정 가능한 개선을 가져왔다. 이 성공은 놀랄 만한 효율성에 기반하며, H20 GPU에서 1분 길이의 동영상에 대해 추론 시간이 단 10초에 불과하다는 스트레스 테스트 결과로 입증되었다.