ビデオキャプションは、コンテンツ密度の違いに起因して、画像キャプションよりもより困難なタスクである。ビデオデータは冗長な視覚的コンテンツを含むため、キャプショナーが多様なコンテンツを一般化しにくく、無関係な要素に誤って引き寄せられてしまうリスクが高まる。さらに、冗長なコンテンツが、正解ラベル(グランドトゥース)における対応する視覚的意味と整合するように適切に削減されていないことも、ビデオキャプションの難易度をさらに高めている。現在のビデオキャプションに関する研究は、主にキャプショナーの設計に注力しており、コンテンツ密度がキャプショナーの性能に与える影響については十分に検討されていない。画像とビデオの相違を踏まえると、簡潔で学習しやすい画像サンプルを活用してビデオサンプルの多様性をさらに高めるという新たなアプローチが存在する。このコンテンツ密度の調整により、キャプショナーは冗長性や曖昧性に直面しても、より効果的に学習するよう促される。本論文では、複雑なビデオ意味をより効果的に学習できるよう支援するため、新しいアプローチである「画像複合学習によるビデオキャプショナー(IcoCap)」を提案する。IcoCapは、2つの主要な構成要素からなる:画像-ビデオ複合戦略(ICS)と視覚-意味ガイド付きキャプション生成(VGC)。ICSは、学習しやすい画像の意味をビデオの意味に複合することで、ビデオコンテンツの多様性をさらに高め、ネットワークがより多様なサンプルにおいてコンテンツを一般化するよう促す。また、画像の意味を含むサンプルを用いた学習により、キャプショナーは明確な画像の意味がある中でも、価値あるビデオの手がかりをより適切に抽出するよう強制される。これにより、不要な情報を除外しつつ、関連する情報に集中する能力が向上する。さらに、VGCは複合されたサンプルに基づき、ネットワークがグランドトゥースのキャプションを柔軟に学習するのをガイドする。これにより、グランドトゥースとビデオサンプル内の曖昧な意味との不一致を緩和する効果が得られる。実験結果から、IcoCapがビデオキャプショナーの学習を効果的に改善することを示した。広く用いられるMSVD、MSR-VTT、VATEXのデータセットに適用した結果、最先端手法と比較して競争力ある、あるいは優れた性能を達成しており、冗長かつ曖昧なビデオデータを効果的に処理できる能力を示している。