VideoGPT+: 이미지 및 비디오 인코더를 통합하여 향상된 비디오 이해 실현

언어 모델의 발전을 바탕으로, 대형 다중모달 모델(Large Multimodal Models, LMMs)은 비디오 이해 분야에서 상당한 개선을 가져왔습니다. 현재의 비디오 LMMs는 고급 대형 언어 모델(Large Language Models, LLMs)을 활용하지만, 시각적 입력 처리를 위해 이미지 인코더 또는 비디오 인코더 중 하나에 의존하고 있으며 각각 고유한 제약 조건이 있습니다. 이미지 인코더는 프레임 시퀀스에서 풍부한 공간적 세부 정보를 포착하는 데 뛰어나지만, 복잡한 행동 시퀀스가 중요한 비디오에서는 명시적인 시간적 맥락이 부족합니다. 반면에 비디오 인코더는 시간적 맥락을 제공하지만, 계산 제약으로 인해 저해상도에서 드문 프레임만 처리하는 경우가 많아 맥락과 공간적 이해가 줄어들 수 있습니다.이러한 문제를 해결하기 위해 VideoGPT+를 소개합니다. 이 모델은 이미지 인코더(세부 공간 이해)와 비디오 인코더(전체 시간적 맥락 모델링)의 보완적인 장점을 결합하여 작동합니다. VideoGPT+는 비디오를 작은 세그먼트로 나누고, 두 가지 인코더에서 추출된 특징에 적응형 풀링 전략을 적용하여 비디오를 처리합니다. 우리의 아키텍처는 VCGBench, MVBench 및 제로샷 질문-답변 등 여러 비디오 벤치마크에서 성능 향상을 입증하였습니다. 또한, 우리는 새로운 준자동 주석 파이프라인을 사용하여 112,000개의 비디오 지시문 집합을 개발하였으며, 이는 모델 성능을 더욱 개선하였습니다.또한, 비디오 LMMs의 종합적인 평가를 위해 VCGBench-Diverse를 제시합니다. 이 벤치마크는 생활, 스포츠, 과학, 게임, 감시 등의 18개 광범위한 비디오 카테고리를 포함하며, 4,354개의 질문-답변 쌍으로 구성되어 기존 LMMs의 밀집型视频字幕生成、空间和时间理解以及复杂推理的泛化能力进行全面评估,确保在各种视频类型和动态中进行全面评估。(注:最后一句中的“型”字似乎是误输入,正确的应该是“형”,即“密集型视频字幕生成”。)修正后的最后一句翻译如下:비밀번호 생성(.dense video captioning), 공간적 및 시간적 이해, 그리고 복잡한 추론의 일반화 능력을 평가하여 다양한 비디오 유형과 동태에서 종합적인 평가를 보장합니다.代码: https://github.com/mbzuai-oryx/VideoGPT-plus.为了保持一致性,以下是整段翻译的最终版本:언어 모델의 발전을 바탕으로, 대형 다중모달 모델(Large Multimodal Models, LMMs)은 비디오 이해 분야에서 상당한 개선을 가져왔습니다. 현재의 비디오 LMMs는 고급 대형 언어 모델(Large Language Models, LLMs)을 활용하지만, 시각적 입력 처리를 위해 이미지 인코더 또는 비디오 인코더 중 하나에 의존하고 있으며 각각 고유한 제약 조건이 있습니다. 이미지 인코더는 프레임 시퀀스에서 풍부한 공간적 세부 정보를 포착하는 데 뛰어나지만, 복잡한 행동 시퀀스가 중요한 비디오에서는 명시적인 시간적 맥락이 부족합니다. 반면에 비디오 인코더는 시간적 맥락을 제공하지만, 계산 제약으로 인해 저해상도에서 드문 프레임만 처리하는 경우가 많아 맥락과 공간적 이해가 줄어들 수 있습니다.이러한 문제를 해결하기 위해 VideoGPT+를 소개합니다. 이 모델은 이미지 인코더(세부 공간 이해)와 비디오 인코더(전체 시간적 맥락 모델링)의 보완적인 장점을 결합하여 작동합니다. VideoGPT+는 비디오를 작은 세그먼트로 나누고, 두 가지 인코더에서 추출된 특징에 적응형 풀링 전략을 적용하여 비디오를 처리합니다. 우리의 아키텍처는 VCGBench, MVBench 및 제로샷 질문-답변 등 여러 비데오표준평가지표(benchmarks)에서 성능 향상을 입증하였습니다. 또한, 우리는 새로운 준자동 주석 파이프라인을 사용하여 112,000개의 비밀번호 생성(비밀번호 지시문 집합)을 개발하였으며, 이는 모델 성능을 더욱 개선하였습니다.또한, 비밀번호 생성(비밀번호 LMMs)의 종합적인 평가를 위해 VCGBench-Diverse를 제시합니다. 이 벤치마크는 생활 방식(lifestyle), 스포츠(sports), 과학(science), 게임(gaming), 감시(surveillance) 등의 18개 광범위한 비밀번호 카테고리(video categories)를 포함하며, 4,354개의 질문-답변 쌍으로 구성되어 기존 LMMs의 밀집형 영상 자막 생성(dense video captioning), 공간적 및 시간적 이해(spatial and temporal understanding), 그리고 복잡한 추론(complex reasoning)의 일반화 능력을 평가하여 다양한 영상 유형과 동태에서 종합적인 평가를 보장합니다.코드: https://github.com/mbzuai-oryx/VideoGPT-plus.请注意,为了确保专业性和准确性,我将一些专有名词保留了英文标注。希望这能帮助您更好地理解译文。