オンライン チュートリアル | GPT-4V を倒しますか?超強力なオープンソースのマルチモーダル大型モデル LLaVA-OneVision が正式にリリースされました。

大規模言語モデル (LLM) と大規模マルチモーダル モデル (LMM) は、人工知能の分野における 2 つの中心的な開発方向です。 LLM は主にテキスト データの処理と生成に特化していますが、LMM はさらに一歩進んで、テキスト、画像、ビデオなどの複数のデータ タイプを統合して理解することを目的としています。現在、LLM は比較的成熟しており、ChatGPT などはテキスト理解の点ですでに「質問に答えるのが上手」であり、人々はモデルが「画像を読み取ることができる」ようにマルチモーダル データの理解に注目し始めています。そしてビデオを見てください。」
最近、バイトダンス、南洋理工大学、香港中文大学、香港科技大学の研究者が共同で LLaVA-OneVision マルチモーダル大規模モデルをオープンソース化しました。このモデルは、単一画像、複数画像で優れたパフォーマンスを実証しました。そしてビデオのパフォーマンス。以下の図に示すように、LLaVA-OneVision-72B は、マルチモーダル大規模モデル専用に設計された評価フレームワークである LMMs-Eval のほとんどのベンチマークで GPT-4V および GPT-4o を上回るパフォーマンスを示しています。


HyperAI スーパー ニューラル チュートリアル セクションが利用可能になりました「LLaVA-OneVision マルチモーダル全天ビジョンモデル デモ」ライン、ユーザーは、静止画像の分析でも、動的なビデオの分析でも、ワンクリックでクローンを起動するだけでさまざまなビジュアルタスクを簡単に処理でき、高品質な出力を提供できます。
チュートリアルのアドレス:
デモの実行
1. hyper.ai にログインし、「チュートリアル」ページで「LLaVA-OneVision Multi-modal All-Purpose Vision Model Demo」を選択し、「このチュートリアルをオンラインで実行する」をクリックします。


2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

3. 右下隅の「次へ: コンピューティング能力の選択」をクリックします。

4. ページがジャンプしたら、「NVIDIA RTX A6000」と「PyTorch」のイメージを選択し、「次へ: レビュー」をクリックします。以下の招待リンクを使用してサインアップした新規ユーザーは、4 時間の RTX 4090 + 5 時間の CPU を無料で入手できます。
HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):
https://openbayes.com/console/signup?r=Ada0322_QZy7

5. すべてが正しいことを確認したら、「続行」をクリックし、最初のクローンが割り当てられるまで待ちます。ステータスが「実行中」に変わったら、「API アドレス」の横にあるジャンプ矢印をクリックしてデモ ページにジャンプします。APIアドレスアクセス機能を利用するには実名認証が必要となりますのでご注意ください。モデルが大きすぎるため、コンテナが実行中と表示された後、API アドレスを開くまで 1 分ほど待つ必要があります。そうしないと、BadGateway が表示されます。



効果実証
1. デモ インターフェイスを開いた後、まず写真を理解する能力をテストしましょう。赤いボックスの領域にさまざまな感情を含む 3 枚の写真をアップロードし、「どの画像が恐怖の感情を表現していますか?」という質問を入力すると、回答が表示されます。質問を正確に行い、画像の説明を提供します(最初の画像は、頭に手を当て、ショックまたは恐怖の表情をしている女性を示しており、恐怖の感情を表しています)。



2. ビデオの理解力も非常に優れており、オリンピックのランニング競技のハイライトビデオをアップロードすると、「このビデオは何についてですか?」と尋ねると、競技のイベントやビデオのシーンを正確に説明できることがわかります。選手の肌の色、感情、スタジアム周辺のスポンサーのブランディングなどの詳細。

回答の翻訳:
このビデオは陸上競技、主に 100 メートル走のクリップのようです。スターティングブロックでレースの準備をする選手たちの姿が描かれており、1人の選手は黄色と緑の服を着ており、これらはジャマイカの国旗の色であることから、その選手がジャマイカを代表している可能性があることを示唆している。このビデオは、離陸の準備をするアスリートたちの激しさと集中力、スターティングブロックからの最初の押し出し、そしてその後のトラックを全力疾走する様子を捉えています。選手たちは代表チームやスポンサーを示すユニフォームを着用し、スタジアムのあちこちにはトヨタやTDKなどさまざまなスポンサーのロゴが見られる。ビデオにはアスリートの顔のクローズアップも含まれており、彼らの集中力と決意を示しています。最後の画像には、1 人の選手が他の選手を先導し、全速力で全力疾走する選手が示されており、競争の激しいレースが行われることを示唆しています。
私たちは「安定拡散チュートリアル交換グループ」を設立し、さまざまな技術的問題について話し合ったり、アプリケーションの効果を共有したりするためにグループに参加する友人を歓迎します~
以下の QR コードをスキャンして Neurostar WeChat (WeChat ID: Hyperai01) を追加し、「SD チュートリアル交換グループ」とコメントしてグループ チャットに参加します。
