YOLOv11 のワンクリック展開
YOLO11: YOLO シリーズの最新バージョン。コンピュータ ビジョン タスクに多用途に使用できます。

1. チュートリアルの概要
YOLOv11 は、Ultralytics チームによって開発されたリアルタイム オブジェクト検出器の最新版であり、2024 年 9 月 30 日に開催された YOLO Vision 2024 (YV24) イベントで発表されました。 YOLOv11 は、精度、速度、効率が大幅に向上し、コンピューター ビジョン タスクの強力なツールになります。 YOLOv11 のリリースは、開発プロセスを簡素化し、その後の統合の基礎を提供することを目的としています。 YOLO モデルの以前のバージョンと比較してアーキテクチャとトレーニング方法が大幅に改善されていることが特徴で、さまざまなコンピューター ビジョン タスクに多用途に使用できます。 YOLOv11 の発売は、ターゲット検出テクノロジーの新たなマイルストーンを告げるものであり、速度と精度において新たなベンチマークを設定するだけでなく、より重要なことに、その革新的なモデル アーキテクチャ設計により、複雑なターゲット検出タスクが実現できるようになります。
さらに、YOLOv11 のインストール プロセスは比較的簡単で、開発者は GitHub ページから最新のソース コードをダウンロードし、ガイドに従ってモデル予測のコマンド ライン テストを実行できます。このチュートリアルでは YOLOv11 を使用します。モデルと関連環境がインストールされているため、API アドレスを直接クローンして開いて、モデル推論を実行し、画像検出、セグメンテーション、姿勢推定、追跡および分類を行うことができます。
YOLOv11 の主な改善点は次のとおりです。
- 機能抽出の強化: バックボーンとネックのアーキテクチャが改善され、物体検出の精度が向上しました。
- 最適化された処理速度: 新しいアーキテクチャ設計とトレーニング方法により、より高速な処理が可能になります。
- 少ないパラメーターで高い精度: COCO データセットでは、YOLOv11m は使用するパラメーターが少ないにもかかわらず、YOLOv8m よりも高い平均精度 (mAP) を達成します。
- 強力な環境適応性: YOLOv11 は、エッジ デバイス、クラウド プラットフォーム、NVIDIA GPU をサポートするシステムなど、さまざまな環境に導入できます。
- 幅広いタスクをサポート: YOLOv11 は、オブジェクト検出、インスタンス セグメンテーション、画像分類、姿勢推定、指向性オブジェクト検出 (OBB) などのさまざまなコンピューター ビジョン タスクをサポートします。
YOLO開発の歴史
YOLO (You Only Look Once) は、ワシントン大学の Joseph Redmon と Ali Farhadi によって開発された、人気のある物体検出および画像セグメンテーション モデルです。 2015 年に発売された YOLO は、その高速性と正確さですぐに人気を博しました。
- 2016 年にリリースされた YOLOv2 は、バッチ正規化、アンカー ボックス、ディメンション クラスタリングを組み込むことで元のモデルを改良しました。
- 2018 年にリリースされた YOLOv3 は、より効率的なバックボーン ネットワーク、マルチアンカー、空間ピラミッド プーリングを使用してモデルのパフォーマンスをさらに強化します。
- YOLOv4 は 2020 年にリリースされ、モザイク データ拡張、新しいアンカーフリー検出ヘッド、新しい損失関数などのイノベーションが導入されました。
- YOLOv5 はモデルのパフォーマンスをさらに向上させ、ハイパーパラメーターの最適化、統合された実験追跡、一般的に使用されるエクスポート形式への自動エクスポートなどの新機能を追加します。
- YOLOv6 は 2022 年に Meituan によってオープンソース化され、現在同社の自律型配送ロボットの多くで使用されています。
- YOLOv7 では、COCO キーポイント データセットに対する姿勢推定などの追加タスクが追加されます。
- YOLOv8 は 2023 年に Ultralytics によってリリースされました。 YOLOv8 では、パフォーマンス、柔軟性、効率を向上させるための新機能と改善が導入され、あらゆる種類のビジュアル AI タスクをサポートします。
- YOLOv9 では、Programmable Gradient Information (PGI) や Generalized Efficient Layer Aggregation Network (GELAN) などの革新的な手法が導入されています。
- YOLOv10 は、このソフトウェア パッケージを使用して清華大学の研究者によって作成されました。 UltralyticsPython パッケージを使用して作成されました。このバージョンでは、エンドツーエンド ヘッドを導入することでリアルタイムの物体検出が進歩し、非最大抑制 (NMS) 要件が排除されています。
- YOLOv11 🚀 新機能: Ultralytics の最新 YOLO モデルは、さまざまな AI アプリケーションおよびドメインにわたる機能を活用し、検出、セグメンテーション、姿勢推定、追跡および分類を含む複数のタスクにわたって最先端 (SOTA) パフォーマンスを提供します。
2. 操作手順
コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

このチュートリアルには 5 つの関数が含まれています。
- 物体検出
- インスタンスの分割
- 画像分類
- 姿勢推定
- 位置決め物体検出
1. 物体検出
物体検出器の出力は、イメージ内のオブジェクトを囲む一連の境界ボックスと、各境界ボックスのクラス ラベルおよび信頼スコアです。オブジェクト検出は、シーン内の対象オブジェクトを識別する必要があるが、オブジェクトの正確な位置や正確な形状を知る必要はない場合に適した選択肢です。


図 1 物体検出
2. インスタンスのセグメント化
インスタンスセグメンテーションモデルの出力は、画像内の各オブジェクトの輪郭を示すマスクまたは輪郭のセットと、各オブジェクトのクラス ラベルおよび信頼スコアです。インスタンスのセグメンテーションは、画像内のオブジェクトの位置だけでなく、その特定の形状も知る必要がある場合に非常に役立ちます。


図 2 インスタンスのセグメンテーション
3. 画像の分類
画像分類器の出力は、単一のクラス ラベルと信頼スコアです。画像分類は、そのクラス内のオブジェクトの位置や正確な形状が分からず、画像がどのクラスに属しているかを知ることのみが必要な場合に役立ちます。


図3 画像の分類
4. 姿勢推定

姿勢推定は、画像内の特定の点 (キーポイントと呼ばれることが多い) の位置を特定するタスクです。キーポイントは、関節、ランドマーク、その他の顕著な特徴など、オブジェクトの一部を表すことができます。キーポイントの位置は、通常、2 次元 [x, y] または 3D [x, y, 可視] 座標のセットによって表されます。
姿勢推定モデルの出力は、画像内のオブジェクトのキー ポイントを表す一連の点であり、多くの場合、各点の信頼スコアが含まれます。ポーズ推定は、シーン内のオブジェクトの特定の部分とそれらの相互の位置関係を識別する必要がある場合に適しています。


図4 姿勢推定
5. 方向のある物体の検出
指向性オブジェクト検出は、画像内のオブジェクトの位置をより正確に特定するために追加の角度を導入することにより、オブジェクト検出よりも一歩進んでいます。
指向オブジェクト検出器の出力は、画像内のオブジェクトを正確に囲む回転された境界ボックスのセットと、各境界ボックスのクラス ラベルおよび信頼スコアです。オブジェクト検出は、シーン内の対象オブジェクトを識別する必要があるが、オブジェクトの特定の位置や正確な形状を知る必要がない場合に適しています。


図 5 方向のある物体の検出
交流とディスカッション
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。
