2달 전

HawkEye: 비디오-텍스트 LLMs를 활용한 텍스트의 비디오 지칭 학습

Yueqian Wang; Xiaojun Meng; Jianxin Liang; Yuxuan Wang; Qun Liu; Dongyan Zhao
HawkEye: 비디오-텍스트 LLMs를 활용한 텍스트의 비디오 지칭 학습
초록

비디오-텍스트 대형 언어 모델(비디오-텍스트 LLMs)은 간단한 비디오에 대한 질문 응답과 대화에서 뛰어난 성능을 보여주었습니다. 그러나 길고 복잡한 비디오에서 텍스트 쿼리를 지칭하는 작업에서는 거의 무작위 수준의 성능을 보이며, 시간적 정보를 이해하고 추론하는 능력이 부족합니다. 이는 비디오와 이미지 사이의 가장 근본적인 차이점입니다. 본 논문에서는 HawkEye를 제안합니다. HawkEye는 완전히 텍스트-텍스트 방식으로 시간적 비디오 지칭을 수행할 수 있는 최초의 비디오-텍스트 LLM 중 하나입니다. 시간적 비디오 지칭에 적합한 학습 데이터를 수집하기 위해, 세그먼트 단위의 캡션과 부정적인 구간을 포함하는 대규모 비디오-텍스트 코퍼스인 InternVid-G를 구성하였습니다. 이를 통해 비디오-텍스트 LLM에 두 가지 새로운 시간 인식 학습 목표를 도입하였습니다. 또한, 비디오 내 세그먼트를 표현하는 거시적인 방법을 제안하는데, 이 방법은 다른 대안들보다 더 강건하며 LLM이 학습하고 따르기 쉽습니다. 광범위한 실험 결과, HawkEye는 기존의 비디오-텍스트 LLM들과 비교하여 시간적 비디오 지칭에서 우수한 성능을 보였으며, 다른 비디오-텍스트 작업에서도 유사한 성능을 나타냈습니다. 이는 HawkEye가 뛰어난 비디오-텍스트 다중 모달 이해 능력을 갖추고 있음을 확인해주었습니다.

HawkEye: 비디오-텍스트 LLMs를 활용한 텍스트의 비디오 지칭 학습 | 최신 연구 논문 | HyperAI초신경