HyperAIHyperAI

Command Palette

Search for a command to run...

MUVR: 다중 모달 비정형 영상 검색 기준 데이터셋으로서 다중 수준의 시각적 대응을 갖춘 데이터셋

초록

우리는 장시간 영상 플랫폼의 영상 검색 기술 발전을 위해 '다중 모달 비정형 영상 검색(Multi-modal Untrimmed Video Retrieval)' 작업과 이를 위한 새로운 벤치마크(MUVR)를 제안한다. MUVR은 다중 모달 쿼리를 활용하여 관련 영상 세그먼트를 포함하는 비정형 영상을 검색하는 것을 목표로 한다. 본 작업은 다음과 같은 특징을 갖는다. 1) 실용적인 검색 파라다임: MUVR은 영상 중심의 다중 모달 쿼리를 지원하며, 긴 텍스트 설명, 영상 태그 프롬프트, 마스크 프롬프트 등을 통해 세밀한 검색 요구를 표현한다. 또한 하나의 쿼리에 대해 여러 영상을 반환하는 '일대다'(one-to-many) 검색 파라다임을 채택하며, 비정형 영상에 특화되어 장시간 영상 플랫폼의 실제 적용에 적합하도록 설계되었다. 2) 다단계 시각적 대응 관계: 일반적인 영상 유형(예: 뉴스, 여행, 댄스 등)을 포괄하고 검색 매칭 기준을 정밀하게 정의하기 위해, 사용자가 관심을 갖고 검색하고자 하는 핵심 영상 콘텐츠(예: 뉴스 사건, 여행지, 댄스 동작 등)를 기반으로 다단계 시각적 대응 관계를 구축하였다. 이는 복사(copy), 사건(event), 장면(scene), 인스턴스(instance), 행동(action), 기타(other)의 총 여섯 단계로 구성된다. 3) 포괄적인 평가 기준: MUVR은 세 가지 버전을 개발하였다. 즉, Base, Filter, QA 버전이다. MUVR-Base 및 MUVR-Filter는 검색 모델의 성능을 평가하는 데 사용되며, MUVR-QA는 질문-응답 형식으로 다중 모달 언어 모델(MLLMs)의 성능을 평가한다. 또한 MLLMs의 재정렬 능력을 평가하기 위해 '재정렬 점수(Reranking Score)'를 제안하였다. MUVR 데이터셋은 Bilibili 영상 플랫폼에서 수집한 총 53,000개의 비정형 영상, 1,050개의 다중 모달 쿼리, 84,000개의 매칭 데이터로 구성되어 있다. 최신 3종의 영상 검색 모델, 6종의 이미지 기반 VLM(비전-언어 모델), 10종의 MLLM(다중 모달 언어 모델)에 대한 광범위한 평가를 수행하였다. 평가 결과, 기존 검색 방법이 비정형 영상과 다중 모달 쿼리 처리에 있어 한계를 보이며, MLLMs 역시 다중 영상 이해 및 재정렬 능력 측면에서 여전히 개선이 필요함을 드러냈다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
MUVR: 다중 모달 비정형 영상 검색 기준 데이터셋으로서 다중 수준의 시각적 대응을 갖춘 데이터셋 | 문서 | HyperAI초신경