HyperAIHyperAI

Command Palette

Search for a command to run...

時間的文脈化を活用したビデオアクション認識

Minji Kim extsuperscript1 extsuperscript† Dongyoon Han extsuperscript3 Taekyung Kim extsuperscript3 extsuperscript* Bohyung Han extsuperscript1,2 extsuperscript*

概要

我々は、ビデオ理解のための新しいフレームワークである時系列コンテクスト化されたCLIP(TC-CLIP)を提案します。このフレームワークは、ビデオ内の空間時間領域における全体的な相互作用を通じて、重要な時系列情報を活用します。具体的には、Temporal Contextualization(TC)と呼ばれる層ごとの時系列情報注入機構を導入しました。これは、1) 各フレームから核心的な情報を抽出し、2) フレーム間で関連する情報を接続してコンテクストトークンに要約し、3) コンテクストトークンを特徴エンコーディングに利用するというプロセスを行います。さらに、Video-conditional Prompting(VP)モジュールがコンテクストトークンを処理し、テキストモダリティでの情報豊富なプロンプトを生成します。ゼロショット学習、ファーソット学習、ベースからノベルへの行動認識、完全教師あり行動認識における広範な実験により、当モデルの有効性が検証されています。TCとVPに関するアブレーションスタディも当設計選択を支持しています。ソースコード付きのプロジェクトページは https://github.com/naver-ai/tc-clip で利用可能です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています