비디오 질의응답 작업은 본질적으로 텍스트와 비디오 간의 정보를 효과적으로 융합하여 답변을 예측하는 문제로 귀결된다. 대부분의 기존 연구들은 전체 자기주의(self-attention) 메커니즘을 활용하여 두 모달리티를 융합하기 위해 트랜스포머 인코더를 교차모달 인코더로 사용한다. 그러나 자기주의 연산의 높은 계산 비용과 비디오 데이터의 고차원성으로 인해, 연구자들은 다음 두 가지 방법 중 하나를 선택해야 한다: 1) 오프라인으로 추출된 비디오 및 텍스트 특징만을 사용하여 교차모달 인코더를 학습하거나, 2) 비디오 및 텍스트 특징 추출기와 함께 교차모달 인코더를 학습하지만, 희소하게 샘플링된 비디오 프레임만을 사용한다. 오프라인 특징만을 사용하는 접근법은 추출된 특징과 하류 작업 데이터 사이의 불일치 문제에 직면한다. 이는 비디오 특징 추출기는 동작 인식 등 다른 도메인에서, 텍스트 특징 추출기는 의미 분류 등 별도의 도메인에서 독립적으로 학습되기 때문이다. 반면, 희소하게 샘플링된 프레임을 사용하는 방법은 비디오에 매우 풍부한 정보가 포함되어 있거나 프레임 수가 많을 경우 정보 손실이 발생할 수 있다. 이러한 문제를 완화하기 위해, 우리는 텍스트 및 비디오 특징을 요약하는 단일 학습 가능한 특수 토큰(special token)으로 자기주의 연산을 대체하는 경량 순환 교차모달 인코더(Lightweight Recurrent Cross-modal Encoder, LRCE)를 제안한다. 이로 인해 모델은 상당히 낮은 계산 비용을 갖게 된다. 더불어, 우리는 비디오의 다양한 구간에서 프레임을 희소하게 샘플링하는 새로운 다중 세그먼트 샘플링 기법을 도입하여 보다 세밀한 정보를 제공한다. 세 가지 VideoQA 데이터셋에서 실시한 광범위한 실험을 통해 LRCE가 기존 방법에 비해 뚜렷한 성능 향상을 달성함을 입증하였다.