HyperAI

초록

우리는 장시간 영상 플랫폼의 영상 검색 기술 발전을 위해 '다중 모달 비정형 영상 검색(Multi-modal Untrimmed Video Retrieval)' 작업과 이를 위한 새로운 벤치마크(MUVR)를 제안한다. MUVR은 다중 모달 쿼리를 활용하여 관련 영상 세그먼트를 포함하는 비정형 영상을 검색하는 것을 목표로 한다. 본 작업은 다음과 같은 특징을 갖는다. 1) 실용적인 검색 파라다임: MUVR은 영상 중심의 다중 모달 쿼리를 지원하며, 긴 텍스트 설명, 영상 태그 프롬프트, 마스크 프롬프트 등을 통해 세밀한 검색 요구를 표현한다. 또한 하나의 쿼리에 대해 여러 영상을 반환하는 '일대다'(one-to-many) 검색 파라다임을 채택하며, 비정형 영상에 특화되어 장시간 영상 플랫폼의 실제 적용에 적합하도록 설계되었다. 2) 다단계 시각적 대응 관계: 일반적인 영상 유형(예: 뉴스, 여행, 댄스 등)을 포괄하고 검색 매칭 기준을 정밀하게 정의하기 위해, 사용자가 관심을 갖고 검색하고자 하는 핵심 영상 콘텐츠(예: 뉴스 사건, 여행지, 댄스 동작 등)를 기반으로 다단계 시각적 대응 관계를 구축하였다. 이는 복사(copy), 사건(event), 장면(scene), 인스턴스(instance), 행동(action), 기타(other)의 총 여섯 단계로 구성된다. 3) 포괄적인 평가 기준: MUVR은 세 가지 버전을 개발하였다. 즉, Base, Filter, QA 버전이다. MUVR-Base 및 MUVR-Filter는 검색 모델의 성능을 평가하는 데 사용되며, MUVR-QA는 질문-응답 형식으로 다중 모달 언어 모델(MLLMs)의 성능을 평가한다. 또한 MLLMs의 재정렬 능력을 평가하기 위해 '재정렬 점수(Reranking Score)'를 제안하였다. MUVR 데이터셋은 Bilibili 영상 플랫폼에서 수집한 총 53,000개의 비정형 영상, 1,050개의 다중 모달 쿼리, 84,000개의 매칭 데이터로 구성되어 있다. 최신 3종의 영상 검색 모델, 6종의 이미지 기반 VLM(비전-언어 모델), 10종의 MLLM(다중 모달 언어 모델)에 대한 광범위한 평가를 수행하였다. 평가 결과, 기존 검색 방법이 비정형 영상과 다중 모달 쿼리 처리에 있어 한계를 보이며, MLLMs 역시 다중 영상 이해 및 재정렬 능력 측면에서 여전히 개선이 필요함을 드러냈다.

초록

Yue Feng Jinwei Hu Qijia Lu Jiawei Niu Li Tan Shuo Yuan Ziyi Yan Yizhen Jia Qingzhi He Shiping Ge

초록

AI로 AI 구축

HyperAI Newsletters

Yue Feng Jinwei Hu Qijia Lu Jiawei Niu Li Tan Shuo Yuan Ziyi Yan Yizhen Jia Qingzhi He Shiping Ge

초록

AI로 AI 구축

HyperAI Newsletters

Yue Feng Jinwei Hu Qijia Lu Jiawei Niu Li Tan Shuo Yuan Ziyi Yan Yizhen Jia Qingzhi He Shiping Ge

초록

AI로 AI 구축

HyperAI Newsletters

Command Palette

MUVR: 다중 모달 비정형 영상 검색 기준 데이터셋으로서 다중 수준의 시각적 대응을 갖춘 데이터셋

Yue Feng Jinwei Hu Qijia Lu Jiawei Niu Li Tan Shuo Yuan Ziyi Yan Yizhen Jia Qingzhi He Shiping Ge4 more

초록

AI로 AI 구축

HyperAI Newsletters

Command Palette

MUVR: 다중 모달 비정형 영상 검색 기준 데이터셋으로서 다중 수준의 시각적 대응을 갖춘 데이터셋

Yue Feng Jinwei Hu Qijia Lu Jiawei Niu Li Tan Shuo Yuan Ziyi Yan Yizhen Jia Qingzhi He Shiping Ge4 more

초록

AI로 AI 구축

HyperAI Newsletters

Command Palette

MUVR: 다중 모달 비정형 영상 검색 기준 데이터셋으로서 다중 수준의 시각적 대응을 갖춘 데이터셋

Yue Feng Jinwei Hu Qijia Lu Jiawei Niu Li Tan Shuo Yuan Ziyi Yan Yizhen Jia Qingzhi He Shiping Ge4 more

초록

AI로 AI 구축

HyperAI Newsletters

Yue Feng Jinwei Hu Qijia Lu Jiawei Niu Li Tan Shuo Yuan Ziyi Yan Yizhen Jia Qingzhi He Shiping Ge

Yue Feng Jinwei Hu Qijia Lu Jiawei Niu Li Tan Shuo Yuan Ziyi Yan Yizhen Jia Qingzhi He Shiping Ge

Yue Feng Jinwei Hu Qijia Lu Jiawei Niu Li Tan Shuo Yuan Ziyi Yan Yizhen Jia Qingzhi He Shiping Ge