HyperAI超神経

YOLOE: すべてをリアルタイムで見る

1. チュートリアルの概要

YOLOEは、清華大学の研究チームが2025年に提案した新しいリアルタイム視覚モデルであり、「すべてをリアルタイムで見る」という目標の達成を目指しています。 YOLO シリーズのモデルのリアルタイム性と効率性を継承し、これに基づいてゼロショット学習とマルチモーダルプロンプト機能を深く統合し、テキスト、ビジョン、サイレントプロンプトなどの複数のシナリオでターゲットの検出とセグメンテーションをサポートできます。関連する論文の結果はYOLOE: リアルタイムで何でも見る”。

コア機能

  1. 任意のテキストタイプ テキストプロンプトの例
  2. マルチモーダルプロンプト:
    • 視覚的な手がかり(ボックス/ドット/手描きの図形/参照画像) 視覚的な手がかりの例
  3. 完全自動サイレント検出 – シーンオブジェクトを自動的に識別 沈黙の例

デモ環境: YOLOv8e/YOLOv11e シリーズ + RTX4090

2. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。 1~2分ほど待ってからページを更新してください。

2. YOLOE機能のデモンストレーション

1. テキストプロンプト検出

  • 任意のテキストタイプ
  • カスタムプロンプトワード: ユーザーが任意のテキストを入力できるようにします(認識結果は意味の複雑さに応じて異なる場合があります)
テキストプロンプトの例 1
テキストプロンプトの例 2

2. マルチモーダルな視覚的手がかり

  • 🟦 ボックス選択検出 (bボックス)
    bboxes: たとえば、多数の人物が写っている画像をアップロードし、画像内の人物を検出したい場合、bboxes を使用して 1 人の人物をフレームに収めることができます。推論中、モデルは bbox の内容に基づいて画像内のすべての人物を識別します。
    より正確な視覚的な手がかりを得るために、複数の bbox を描画できます。
  • ✏️ クリック/描画領域 (マスク)
    マスク: たとえば、多数の人物が写っている画像をアップロードし、画像内の人物を検出したい場合は、マスクを使用して 1 人の人物を隠すことができます。推論中、モデルはマスクの内容に基づいて画像内のすべての人物を認識します。
    より正確な視覚的な手がかりを得るために、複数のマスクを描画することができます。
  • 🖼️ 参考画像の比較 (イントラ/クロス)
    イントラ: 現在の画像に対して bbox またはマスクを操作し、現在の画像に対して推論を実行します。
    Cross: 現在の画像で bbox またはマスクを操作し、他の画像を推測します。

コアコンセプト

モデル機能説明アプリケーションシナリオ
画像内単一グラフ内でのオブジェクトの関係のモデリングローカルターゲットの正確な位置決め
クロスイメージ画像間の特徴マッチング類似オブジェクトの検索
ボックス選択検出の例
手描きプロンプトの例
参考画像比較例

3. プロンプトなしで完全に自動検出

  • 🔍  インテリジェントなシーン分析: 画像内の目立つオブジェクトをすべて自動的に識別します
  • 🚀  ゼロ構成の起動: プロンプト入力なしで動作します
全自動検出1
全自動検出2

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。