2달 전

HERMES: 시간-일관성 있는 장기 이해를 위한 에피소드와 의미론

Gueter Josmy Faure; Jia-Fong Yeh; Min-Hung Chen; Hung-Ting Su; Shang-Hong Lai; Winston H. Hsu
HERMES: 시간-일관성 있는 장기 이해를 위한 에피소드와 의미론
초록

기존 연구에서는 장형 비디오를 연장된 단형 비디오로 취급하는 경우가 많아 여러 제한 사항이 발생합니다: 장거리 의존성의 부족한 포착, 중복 정보의 비효율적인 처리, 고차원적 의미 개념 추출 실패 등입니다. 이러한 문제들을 해결하기 위해, 본 논문은 인간의 인지 과정을 보다 정확히 반영하는 새로운 접근법을 제안합니다. 이 논문은 HERMES: 시간적 일관성을 갖춘 에피소드와 의미를 통한 장형 이해(temporal-coherent long-form understanding with Episodes and Semantics) 모델을 소개합니다. 이 모델은 에피소딕 메모리 축적을 시뮬레이트하여 행동 시퀀스를 포착하고, 이를 비디오 전체에 퍼져 있는 의미 지식으로 강화합니다. 본 연구는 두 가지 주요 기여점을 제시합니다: 첫째, 마이크로부터 준-매크로 수준까지 중요한 표현을 효율적으로 집계하는 에피소딕 압축기(Episodic COmpressor, ECO)를 개발하여 장거리 의존성의 문제를 극복하였습니다. 둘째, 광범위한 맥락에 초점을 맞추어 의미 정보로 이러한 집계된 표현을 강화하는 의미 검색기(Semantics ReTRiever, SeTR)를 제안하여 특징 차원을 크게 줄이면서도 관련 매크로 수준 정보를 유지하였습니다. 이는 중복성과 고차원적 개념 추출 부족 문제를 해결합니다. 광범위한 실험 결과 HERMES가 제로샷 및 완전 감독 학습 환경에서 모두 다수의 장형 비디오 이해 벤치마크에서 최고 수준의 성능을 달성함을 입증하였습니다.

HERMES: 시간-일관성 있는 장기 이해를 위한 에피소드와 의미론 | 최신 연구 논문 | HyperAI초신경