HyperAIHyperAI

Command Palette

Search for a command to run...

RTQ:画像-テキストモデルに基づく動画-言語理解の再考

Xiao Wang Yaoyu Li Tian Gan Zheng Zhang Jingjing Lv Liqiang Nie

概要

最近の動画・言語理解に関する進展は、画像・テキストモデルの基盤の上に築かれており、画像と動画の間にある共有知識の活用により、有望な成果が得られている。しかし、動画・言語理解は、高度に複雑な意味的詳細を含むことから、情報の冗長性、時間的依存性、シーンの複雑性といった独自の課題を抱えている。現在の手法はこれらの問題を部分的にしか解決できていないが、我々の定量的分析によれば、これらの手法の一部は相補的であることが示された。このような状況を踏まえ、本研究では、これらの課題を同時に解決する新しいフレームワーク「RTQ(Refine, Temporal model, and Query)」を提案する。本アプローチは、フレーム内の冗長情報を精査することで除去し、フレーム間の時間的関係をモデル化し、タスク固有の情報を動画からクエリするという三つのステップから構成される。特に注目すべきは、動画・言語の事前学習を用いない状態でも、本モデルが優れた性能を発揮することであり、最先端の事前学習手法による結果と同等、あるいはそれを上回る性能を達成している。コードは以下のURLで公開されている:https://github.com/SCZwangxiao/RTQ-MM2023


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています