
초록
이 기술 보고서는 [9]에서 제시한 연구를 보다 많은 실험을 통해 확장한다. [9]에서는 현재 및 과거 또는 미래 관측치로부터 추론이 필요한 장기 영상 이해 문제를 다루며, 몇 가지 핵심적인 질문을 제기한다. 시간적 또는 순차적 관계는 어떻게 모델링되어야 하는가? 어느 정도의 시간 범위에 해당하는 정보와 맥락을 처리해야 하는가? 이러한 정보는 어떤 시간 규모에서 추출되어야 하는가? [9]에서는 유연한 다중 균질 시간 집계 프레임워크를 통해 이러한 질문들을 해결한다. 본 보고서에서는 이 프레임워크를 다양한 작업과 새로운 데이터셋인 EPIC-KITCHENS-100에 대해 추가 실험을 통해 평가한다.