HyperAI超神経

何でも説明できるモデルデモ

プロジェクト概要

GitHubスター

Describe Anything Model (DAM) は、NVIDIA、カリフォルニア大学バークレー校、およびUCSFのチームが共同で開発し、2025年にリリースされた革新的な画像および動画記述モデルです。このモデルは、ユーザーが指定した領域(点、ボックス、落書き、マスク)に基づいて詳細な記述を生成できます。動画コンテンツの場合、任意のフレームの領域に注釈を付けるだけで、完全な記述が得られます。関連論文の結果は次のとおりです。何でも説明:詳細なローカライズ画像と動画のキャプション”。

このチュートリアルでは、単一の RTX 4090 カードのリソースを使用します。

プロジェクト例

プロジェクト例

ステップの実行

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってページを更新してください。

2. ウェブページに入ると、モデルと対話することができます

画像サイズは5MB以下、動画の長さは20秒以下、動画サイズは5MB以下にしてください。これを超えると、モデルの動作が遅くなったり、エラーが発生したりする可能性があります。説明領域は適切に選択してください。

このチュートリアルでは、画像モード モジュールとビデオ モード モジュールの 2 つのモジュール テストを提供します。

各モジュールの機能は次のとおりです。

画像モード

ビデオモード

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

Githubユーザーに感謝 ジャンジュンチャン  このチュートリアルの展開では、プロジェクト参照情報は次のとおりです。

@article{lian2025describe,
  title={Describe Anything: Detailed Localized Image and Video Captioning}, 
  author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
  journal={arXiv preprint arXiv:2504.16072},
  year={2025}
} GitHub Stars arXiv