5ヶ月前

ビデオ理解

マルチモーダル

Video Captioning

マルチモーダル

コンピュータビジョン

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

概要

大規模言語モデル（LLM）が示す驚異的なゼロショット能力により、自然言語処理はタスク固有のモデルから統合的で汎用的な基盤モデルへと進化した。この変革の背景には、単純な原理が存在する。すなわち、ウェブスケールのデータ上で学習された大規模で生成型のモデルである。奇妙なことに、これらの同一の原理は、現在の生成型動画モデルにも適用可能である。動画モデルは、LLMが自然言語理解の汎用性を獲得したのと同様に、汎用的な視覚理解へと向かう道を歩んでいるのだろうか？我々は、Veo 3が明示的に訓練されていない幅広いタスクを解決できることを実証した。具体的には、オブジェクトのセグメンテーション、エッジ検出、画像編集、物理的性質の理解、オブジェクトの使用可能性（アフォーダンス）の認識、ツール使用のシミュレーションなどである。これらの視覚世界の認識・モデル化・操作能力により、迷路解法や対称性の理解といった、初期段階の視覚的推論が可能となる。Veoが示すこのような出現型ゼロショット能力は、動画モデルが統合的で汎用的な視覚基盤モデルへと進化している兆候であることを示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

5ヶ月前

ビデオ理解

マルチモーダル

Video Captioning

マルチモーダル

コンピュータビジョン

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

概要

大規模言語モデル（LLM）が示す驚異的なゼロショット能力により、自然言語処理はタスク固有のモデルから統合的で汎用的な基盤モデルへと進化した。この変革の背景には、単純な原理が存在する。すなわち、ウェブスケールのデータ上で学習された大規模で生成型のモデルである。奇妙なことに、これらの同一の原理は、現在の生成型動画モデルにも適用可能である。動画モデルは、LLMが自然言語理解の汎用性を獲得したのと同様に、汎用的な視覚理解へと向かう道を歩んでいるのだろうか？我々は、Veo 3が明示的に訓練されていない幅広いタスクを解決できることを実証した。具体的には、オブジェクトのセグメンテーション、エッジ検出、画像編集、物理的性質の理解、オブジェクトの使用可能性（アフォーダンス）の認識、ツール使用のシミュレーションなどである。これらの視覚世界の認識・モデル化・操作能力により、迷路解法や対称性の理解といった、初期段階の視覚的推論が可能となる。Veoが示すこのような出現型ゼロショット能力は、動画モデルが統合的で汎用的な視覚基盤モデルへと進化している兆候であることを示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています