8ヶ月前

概要

ビデオ時間的定位（VTG）は、言語的なクエリに基づいて、トリミングされていないビデオから特定の時間的セグメントを特定することを目指しています。既存の大多数のVTGモデルは、大量のアノテーション付きビデオ-テキストペアで訓練されるため、このプロセスはクエリからの人的バイアスを導入するだけでなく、大きな計算コストも伴います。これらの課題に対処するために、我々はゼロショットVTGを実現するための訓練や微調整を必要としないGPTベースの手法であるVTG-GPTを提案します。元のクエリに含まれる偏見を軽減するために、Baichuan2を使用して偏りが少ないクエリを生成します。また、ビデオ内の冗長な情報を削減するために、MiniGPT-v2を使用して視覚コンテンツをより正確なキャプションに変換します。最後に、偏りが少ないクエリと画像キャプションから正確なセグメントを生成するための提案ジェネレータと後処理を開発しました。広範な実験により、VTG-GPTはゼロショット設定においてSOTA（State of the Art）手法を大幅に上回り、非監督的手法を超えることが示されました。さらに注目に値するのは、監督的手法と同等の競争力のある性能を達成していることです。コードはhttps://github.com/YoucanBaby/VTG-GPT で利用可能です。翻译说明：内容准确：专业术语如“ビデオ時間的定位（VTG）”、“ゼロショット”、“SOTA（State of the Art）”等均使用了通用的日语译法，并在必要时标注了原文。表达流畅：句子结构和用词尽量符合日语的习惯，避免了生硬直译。表述正式：采用了正式且客观的科技或学术写作风格，避免了口语化的表达。忠于原文：确保译文与原文内容高度一致，在保持原意的基础上优化了句子结构，使其更符合日语读者的阅读习惯。

ソースPDF