13일 전

긴 영상 이해를 위한 언어 레포지토리

Kumara Kahatapitiya, Kanchana Ranasinghe, Jongwoo Park, Michael S. Ryoo
긴 영상 이해를 위한 언어 레포지토리
초록

언어는 LLM(대규모 언어 모델)의 부상과 함께 컴퓨터 비전 분야에서 중요한 모달리티로 부상하고 있다. 긴 컨텍스트 길이를 지원함에도 불구하고, 입력 길이가 길어질수록 장기 정보 처리 능력이 점차 저하되는 문제가 존재한다. 이는 특히 장시간 영상 이해와 같은 응용 분야에서 극도로 중요한 문제로 작용한다. 본 논문에서는 LLM을 위한 언어 레포지터리(LangRepo)를 제안한다. 이 레포지터리는 해석 가능한(즉, 전부 텍스트 기반의) 형태로 간결하고 구조화된 정보를 유지한다. 본 레포지터리는 다중 스케일 영상 청크를 기반으로 반복적으로 업데이트된다. 우리는 텍스트 내 중복을 제거하고 다양한 시계열 스케일에서 정보를 추출하는 데 초점을 맞춘 쓰기(write) 및 읽기(read) 연산을 도입한다. 제안하는 프레임워크는 EgoSchema, NExT-QA, IntentQA, NExT-GQA를 포함한 제로샷 시각 질문 응답 벤치마크에서 평가되었으며, 해당 규모에서 최신 기술(SOTA) 수준의 성능을 보였다. 코드는 https://github.com/kkahatapitiya/LangRepo 에서 공개되어 있다.

긴 영상 이해를 위한 언어 레포지토리 | 최신 연구 논문 | HyperAI초신경