HyperAIHyperAI

Command Palette

Search for a command to run...

GEB+: ジェネリックイベント境界のキャプショニング、グラウンド化および検索のためのベンチマーク

Yuxuan Wang Difei Gao Licheng Yu Weixian Lei Matt Feiszli Mike Zheng Shou

概要

認知科学は、人間がビデオを主要な主題の状態変化によって区切られたイベントとして認識することを示しています。これらの状態変化は新しいイベントを引き起こし、大量の冗長な情報の中で最も有用なものの一つです。しかし、これまでの研究では、セグメント全体の理解に焦点を当て、内部の微細な状態変化を評価していませんでした。本論文では、Kinetic-GEB+と呼ばれる新しいデータセットを紹介します。このデータセットには、12,000本以上のビデオに含まれる一般的なイベントにおける状態変化を説明するキャプションが付いた17万件以上の境界が含まれています。この新しいデータセットに基づいて、より微細で堅牢かつ人間に近いビデオ理解を促進するための3つのタスクを提案します。私たちは多くの代表的なベースラインモデルを評価し、視覚的な違いモデリングのために新しいTPD(Temporal-based Pairwise Difference)モデリング手法も設計しました。これにより、性能に大幅な向上が見られました。さらに、結果は現在の手法が異なる粒度の利用、視覚的な違い表現、および状態変化の正確な位置特定において依然として大きな課題を持っていることを示しています。詳細分析によると、当該データセットはより強力な手法を開発し、状態変化の理解を改善することでビデオレベルでの理解力を高めるのに役立つことがわかりました。ビデオと境界線が含まれるデータセットは https://yuxuan-w.github.io/GEB-plus/ で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています