7日前

RTQ：画像-テキストモデルに基づく動画-言語理解の再考

Xiao Wang, Yaoyu Li, Tian Gan, Zheng Zhang, Jingjing Lv, Liqiang Nie

要約

最近の動画・言語理解に関する進展は、画像・テキストモデルの基盤の上に築かれており、画像と動画の間にある共有知識の活用により、有望な成果が得られている。しかし、動画・言語理解は、高度に複雑な意味的詳細を含むことから、情報の冗長性、時間的依存性、シーンの複雑性といった独自の課題を抱えている。現在の手法はこれらの問題を部分的にしか解決できていないが、我々の定量的分析によれば、これらの手法の一部は相補的であることが示された。このような状況を踏まえ、本研究では、これらの課題を同時に解決する新しいフレームワーク「RTQ（Refine, Temporal model, and Query）」を提案する。本アプローチは、フレーム内の冗長情報を精査することで除去し、フレーム間の時間的関係をモデル化し、タスク固有の情報を動画からクエリするという三つのステップから構成される。特に注目すべきは、動画・言語の事前学習を用いない状態でも、本モデルが優れた性能を発揮することであり、最先端の事前学習手法による結果と同等、あるいはそれを上回る性能を達成している。コードは以下のURLで公開されている：https://github.com/SCZwangxiao/RTQ-MM2023。