Command Palette

Search for a command to run...

2달 전

ELV-Halluc: 장기 영상 이해에서 의미 집약 환각 현상에 대한 벤치마킹

Hao Lu Jiahao Wang Yaolun Zhang Ruohui Wang Xuanyu Zheng Yepeng Tang Dahua Lin Lewei Lu

ELV-Halluc: 장기 영상 이해에서 의미 집약 환각 현상에 대한 벤치마킹

초록

비디오 다모달 대규모 언어 모델(Video-MLLM)은 비디오 이해 분야에서 놀라운 진전을 이뤘다. 그러나 여전히 비디오 입력과 일치하지 않거나 관련성이 없는 내용을 생성하는 환각(hallucination)에 취약한 상태이다. 기존의 비디오 환각 평가 기준은 주로 단편 영상에 초점을 맞추고 있으며, 강한 언어 사전 지식(language priors), 프레임 누락, 또는 시각 인코더에 의해 유도되는 시각-언어 편향 등의 요인을 환각의 원인으로 지적해왔다. 이러한 원인들은 단편 영상에서 발생하는 환각의 대부분을 설명할 수는 있으나, 환각의 원인을 지나치게 단순화하고 있다. 때로는 모델이 잘못된 출력을 생성하지만, 프레임 수준의 의미는 정확할 수 있다. 이러한 유형의 환각을 우리는 '의미 집약 환각(Semantic Aggregation Hallucination, SAH)'이라 칭한다. 이는 프레임 수준의 의미를 이벤트 수준의 의미 그룹으로 통합하는 과정에서 발생한다. 특히 장시간 영상에서는 여러 이벤트에 걸쳐 의미 복잡도가 증가함에 따라 SAH는 더욱 중요한 문제로 부상한다. 따라서 이와 같은 환각의 원인을 명확히 분리하고 체계적으로 조사하는 것이 필수적이다. 이러한 문제를 해결하기 위해 우리는 장시간 영상 환각에 특화된 최초의 평가 기준인 ELV-Halluc을 제안하며, SAH에 대한 체계적인 탐구를 가능하게 한다. 실험을 통해 SAH의 존재를 확인하고, 의미 복잡도가 증가할수록 SAH가 증가함을 입증하였다. 또한 모델이 빠르게 변화하는 의미 구조에서 더 높은 SAH 발생률을 보임을 발견하였다. 더불어 SAH 완화를 위한 잠재적 접근 방식도 논의한다. 위치 인코딩 전략이 SAH 완화에 기여함을 입증하였으며, 이어 DPO(Direct Preference Optimization) 전략을 도입하여 이벤트 내 및 이벤트 간 의미 구분 능력을 향상시켰다. 이를 뒷받침하기 위해 8,000쌍의 적대적 데이터(adversarial data pairs)를 수집한 데이터셋을 구축하였으며, ELV-Halluc 및 Video-MME에서 모두 성능 향상을 입증하였다. 특히 SAH 비율은 27.7%나 감소하는 성과를 달성하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
ELV-Halluc: 장기 영상 이해에서 의미 집약 환각 현상에 대한 벤치마킹 | 연구 논문 | HyperAI초신경