비디오 캡셔닝은 이미지 캡셔닝에 비해 더 도전적인 작업으로, 주로 콘텐츠 밀도의 차이에서 기인한다. 비디오 데이터는 반복적인 시각적 콘텐츠를 포함하고 있어, 캡셔너가 다양한 콘텐츠를 일반화하는 데 어려움을 겪고, 무관한 요소에 혼란을 겪을 수 있다. 게다가, 반복적인 콘텐츠는 지정된 참조(ground truth)의 시각적 의미와 일치하도록 잘 정리되지 않아, 비디오 캡셔닝의 난이도를 더욱 높인다. 현재 비디오 캡셔닝 분야의 연구는 주로 캡셔너 설계에 집중되어 있으며, 콘텐츠 밀도가 캡셔너 성능에 미치는 영향은 소홀히 다뤄지고 있다. 비디오와 이미지 간의 차이를 고려할 때, 간결하고 학습이 용이한 이미지 샘플을 활용하여 비디오 샘플의 다양성을 더욱 높이는 새로운 접근 방식이 존재한다. 이러한 콘텐츠 밀도의 조정은 캡셔너가 반복성과 모호성에 효과적으로 대응하도록 유도한다. 본 논문에서는 복잡한 비디오 의미를 더 잘 학습할 수 있도록 지원하는 새로운 접근법인 Image-Compounded learning for video Captioners (IcoCap)를 제안한다. IcoCap는 두 가지 구성 요소로 이루어져 있다: Image-Video Compounding Strategy (ICS)와 Visual-Semantic Guided Captioning (VGC). ICS는 학습이 용이한 이미지 의미를 비디오 의미에 병합함으로써 비디오 콘텐츠의 다양성을 더욱 확장하고, 네트워크가 더 다양한 샘플에서 콘텐츠를 일반화하도록 유도한다. 또한, 이미지 콘텐츠가 병합된 샘플을 기반으로 학습함으로써, 캡셔너는 단순한 이미지 의미가 존재하는 환경에서도 유용한 비디오 특징을 더 잘 추출하도록 강제된다. 이는 캡셔너가 관련 정보에 더 집중하고 불필요한 콘텐츠를 제거하는 데 도움을 준다. 이후 VGC는 병합된 샘플을 기반으로 네트워크가 참조 캡션을 유연하게 학습하도록 안내하여, 참조 캡션과 비디오 샘플 내 모호한 의미 간의 불일치를 완화하는 데 기여한다. 실험 결과를 통해 IcoCap가 비디오 캡셔너의 학습을 향상시키는 데 효과적임을 입증하였다. 널리 사용되는 MSVD, MSR-VTT, VATEX 데이터셋에 적용한 결과, 기존 최고 수준의 방법들과 비교해 경쟁력 있거나 더 우수한 성능을 달성하였으며, 이는 반복적이고 모호한 비디오 데이터를 효과적으로 처리할 수 있음을 보여준다.