8ヶ月前

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

AJ Piergiovanni Weicheng Kuo Anelia Angelova

概要

私たちは、ViTエンコーダを効率的なビデオモデルに変換する単純な手法を提案します。このモデルは画像とビデオの両方の入力に対応し、シームレスに動作します。入力を疎にサンプリングすることで、モデルは両方の入力から学習および推論を行うことが可能です。本モデルは容易にスケーリングが可能であり、大規模事前学習済みのViTにも完全な微調整を必要とせずに適応できます。本モデルは最先端（SOTA）の結果を達成しており、コードはオープンソース化される予定です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning ビデオViTの再考：画像とビデオの統合学習のためのスパースビデオチューブ | 記事 | HyperAI超神経