HyperAIHyperAI

Command Palette

Search for a command to run...

YOLOv1の誕生:リアルタイム物体検出の始まりを再現するアーキテクチャ解説

2015年に発表されたYOLOv1は、リアルタイム物体検出の分野に革命をもたらしたモデルであり、その基本的な思想は「一度だけ画像を見る」ことで高速かつ統合的な検出を実現することにある。当時、物体検出の最先端技術として広く使われていたR-CNNは、領域提案(Selective Search)→特徴抽出(CNN)→分類(SVM)という複数ステップのプロセスを経るため、処理時間が長かった。これに対してYOLOv1は、画像を7×7のグリッドに分割し、各セルが物体の存在と位置を同時に予測するアーキテクチャを採用。1つの画像に対して98個(7×7×2)の境界ボックスを生成する仕組みで、検出速度を大幅に向上させた。 YOLOv1の学習にはPASCAL VOCデータセットが使われ、クラス数は20。各グリッドセルに対しては、20次元のクラス確率(one-hot)、物体存在の信頼度(confidence)、境界ボックスの中心座標(x, y)、幅(w)、高さ(h)の合計30要素を持つ予測ベクトルを出力。これらの情報を7×7のグリッド全体にわたって連結したものが最終的な予測結果であり、実際の訓練では各セルに対応する真値ベクトル(target vector)を用いて損失関数を計算する。 アーキテクチャは、24層の畳み込み層から構成され、最大プーリング層を組み合わせて空間サイズを段階的に縮小。入力サイズは448×448で、最終的に1024×7×7の特徴マップを出力。その後、2つの全結合層(4096ユニットと1470ユニット)を経て、30×7×7のテンソルにreshapeされる。この構造は、物体のクラスと境界ボックスを同時に予測する統合的なアプローチを実現している。 YOLOv1は、当時の技術水準では非常に高い精度と速度の両立を達成し、その後のYOLOシリーズの基盤となった。現代のモデルでもその思想は受け継がれており、リアルタイム検出の標準として広く採用されている。

関連リンク