시각적 및 음성 신호 내재의 시간적 패턴은 정서적 비디오 콘텐츠 분석에 있어 핵심적인 역할을 하지만, 아직 충분히 탐구되지 않은 상태이다. 본 논문에서는 시간적 정보를 보다 완전히 포착하기 위해 새로운 시간 인지 다모달(Temporal-Aware Multimodal, TAM) 방법을 제안한다. 구체적으로, 비디오 세그먼트 내부 및 세그먼트 간 다양한 모달 간에 주의 기반(fusion)을 적용하는 교차 시간 다모달 융합 모듈을 설계하였다. 이를 통해 서로 다른 모달 간의 시간적 관계를 완전히 포착할 수 있다. 또한, 단일 정서 레이블만으로는 각 세그먼트의 표현 학습에 충분한 지도 정보를 제공하지 못해 시간적 패턴 탐색이 어려운 문제가 있다. 이에 따라 시간 동기화 댓글(Time-synchronized Comments, TSCs)을 보조적 지도 정보로 활용한다. TSCs는 쉽게 접근 가능하며 풍부한 정서적 단서를 포함하고 있기 때문이다. 이를 바탕으로 두 가지 TSC 기반 자기 지도 학습(self-supervised) 작업을 설계하였다. 첫 번째 작업은 비디오 표현과 TSC의 맥락적 의미로부터 TSC 내 정서적 단어를 예측하는 것이며, 두 번째 작업은 비디오 표현과 TSC 임베딩 간의 상관관계를 계산하여 TSC가 등장하는 세그먼트를 예측하는 것이다. 이러한 자기 지도 학습 작업들은 웹에서 크롤링한 레이블링 비용이 없는 대규모 비디오-TSC 데이터셋을 이용하여 교차 시간 다모달 융합 모듈의 사전 학습에 활용된다. 이러한 자기 지도 사전 학습 작업은 TSC를 포함하는 세그먼트에 대한 표현 학습을 촉진함으로써, 더 풍부한 시간적 정서적 패턴을 포착하도록 한다. 세 가지 벤치마크 데이터셋에서의 실험 결과는 제안하는 융합 모듈이 정서적 비디오 콘텐츠 분석 분야에서 최신 기준(SOTA) 성능을 달성함을 보여준다. 제거 실험(Ablation study)을 통해 TSC 기반 사전 학습 후 융합 모듈이 더 많은 세그먼트의 정서적 패턴을 학습하고, 성능이 향상됨을 확인하였다.