Discord에서 논의하기

5달 전

시각 질문 응답

다중모달 표현

비디오 처리

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

초록

다중모달 대규모 언어모델(Multimodal LLM, MLLM)의 발전에도 불구하고, 3차원 구조와 시공간적 동역학에 대한 추론 능력은 여전히 제한적이다. 이는 약한 4차원(4D) 인지 능력과 시계열 이해 능력 부족에 기인한다. 기존의 3차원 및 4차원 비디오 질의응답(Video Question Answering, VQA) 벤치마크는 정적 장면에 중점을 두고 있으며, 영역 수준의 프롬프트(지시)를 제공하지 못하는 점이 문제로 지적된다. 본 연구는 다음과 같은 세 가지 핵심 기여를 통해 이러한 문제를 해결한다: (a) 4D-RGPT, 비디오 입력으로부터 4차원 표현을 보다 향상된 시계열 인지 능력으로 캡처할 수 있도록 설계된 전용 MLLM; (b) Perceptual 4D Distillation (P4D), 고정된 전문 모델로부터 4D 표현을 4D-RGPT로 전이하는 학습 프레임워크로, 종합적인 4D 인지 능력을 구현한다; (c) R4D-Bench, 영역 수준의 프롬프트를 지원하는 깊이 인지 기반의 동적 장면을 대상으로 하며, 자동화된 혼합(하이브리드) 및 인간 검증 프로세스를 통해 구축된 벤치마크. 제안한 4D-RGPT는 기존의 4D VQA 벤치마크와 본 연구에서 제안한 R4D-Bench 모두에서 뚜렷한 성능 향상을 달성하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

5달 전

시각 질문 응답

다중모달 표현

비디오 처리

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

초록

다중모달 대규모 언어모델(Multimodal LLM, MLLM)의 발전에도 불구하고, 3차원 구조와 시공간적 동역학에 대한 추론 능력은 여전히 제한적이다. 이는 약한 4차원(4D) 인지 능력과 시계열 이해 능력 부족에 기인한다. 기존의 3차원 및 4차원 비디오 질의응답(Video Question Answering, VQA) 벤치마크는 정적 장면에 중점을 두고 있으며, 영역 수준의 프롬프트(지시)를 제공하지 못하는 점이 문제로 지적된다. 본 연구는 다음과 같은 세 가지 핵심 기여를 통해 이러한 문제를 해결한다: (a) 4D-RGPT, 비디오 입력으로부터 4차원 표현을 보다 향상된 시계열 인지 능력으로 캡처할 수 있도록 설계된 전용 MLLM; (b) Perceptual 4D Distillation (P4D), 고정된 전문 모델로부터 4D 표현을 4D-RGPT로 전이하는 학습 프레임워크로, 종합적인 4D 인지 능력을 구현한다; (c) R4D-Bench, 영역 수준의 프롬프트를 지원하는 깊이 인지 기반의 동적 장면을 대상으로 하며, 자동화된 혼합(하이브리드) 및 인간 검증 프로세스를 통해 구축된 벤치마크. 제안한 4D-RGPT는 기존의 4D VQA 벤치마크와 본 연구에서 제안한 R4D-Bench 모두에서 뚜렷한 성능 향상을 달성하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

4D-RGPT: 지각 증류를 통한 영역 수준의 4차원 이해로 향해 | 문서 | HyperAI초신경