8ヶ月前

ビデオ理解

Video Captioning

マルチモーダル

コンピュータビジョン

Zhen Li Chuanhao Li Xiaofeng Mao Shaoheng Lin Ming Li Shitian Zhao Zhaopan Xu Xinyue Li Yukang Feng Jianwen Sun

概要

動画生成技術は著しい進歩を遂げ、対話型の世界探査の基盤となることが期待されています。しかし、既存の動画生成データセットは世界探査の訓練に適していないという問題があります。その理由として、場所の限定性、短い持続時間、静止したシーン、そして探査や世界に関するアノテーションの不足が挙げられます。本論文では、「Sekai」（日本語で「世界」という意味）と呼ばれる高品質な第一人称視点の全世界動画データセットを紹介します。このデータセットには、750都市以上にわたる100カ国以上の地域から収集された5,000時間を超える歩行またはドローン視点（FPVおよびUAV）の動画が含まれています。私たちは効率的かつ効果的なツールボックスを開発し、動画を場所、シーン、天候、群衆密度、キャプション、カメラ軌道などの情報を付加して収集・前処理・アノテーションを行いました。実験結果はデータセットの品質を示しています。また、「YUME」（日本語で「夢」という意味）と名付けられた対話型世界探査モデルを訓練するために一部を使用しました。「Sekai」は動画生成と世界探査の分野に貢献し、価値ある応用研究を促進すると考えています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ビデオ理解

Video Captioning

マルチモーダル

コンピュータビジョン

Zhen Li Chuanhao Li Xiaofeng Mao Shaoheng Lin Ming Li Shitian Zhao Zhaopan Xu Xinyue Li Yukang Feng Jianwen Sun

概要

動画生成技術は著しい進歩を遂げ、対話型の世界探査の基盤となることが期待されています。しかし、既存の動画生成データセットは世界探査の訓練に適していないという問題があります。その理由として、場所の限定性、短い持続時間、静止したシーン、そして探査や世界に関するアノテーションの不足が挙げられます。本論文では、「Sekai」（日本語で「世界」という意味）と呼ばれる高品質な第一人称視点の全世界動画データセットを紹介します。このデータセットには、750都市以上にわたる100カ国以上の地域から収集された5,000時間を超える歩行またはドローン視点（FPVおよびUAV）の動画が含まれています。私たちは効率的かつ効果的なツールボックスを開発し、動画を場所、シーン、天候、群衆密度、キャプション、カメラ軌道などの情報を付加して収集・前処理・アノテーションを行いました。実験結果はデータセットの品質を示しています。また、「YUME」（日本語で「夢」という意味）と名付けられた対話型世界探査モデルを訓練するために一部を使用しました。「Sekai」は動画生成と世界探査の分野に貢献し、価値ある応用研究を促進すると考えています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています