TrackNetは、動画からテニスボールやシャトルコックなど高速かつ微小な物体を追跡するための深層学習ネットワークとして提案された。ぼやけや残像、一時的な遮蔽といった低画質問題に対処するため、連続する複数の画像をまとめて入力し、飛翔中の物体を検出する。本研究では、特に処理速度、予測精度、GPUメモリ使用量の観点からTrackNetの性能を向上させるため、TrackNetV2が提案されている。まず、処理速度は2.6 FPSから31.8 FPSまで向上した。これは、入力画像サイズの縮小と、従来のMultiple-In Single-Out(MISO)構造からMultiple-In Multiple-Out(MIMO)構造へのネットワーク再設計によって実現された。次に、予測精度の向上のため、多様なバドミントン試合動画から構成される包括的なデータセットを収集・ラベル付けし、学習および評価に用いた。このデータセットは18本のバドミントン試合動画から抽出された合計55,563フレームから構成されている。さらに、ネットワーク構造にはVGG16とアップサンプリング層に加え、U-net構造を組み合わせることで性能を強化した。最後に、GPUメモリ使用量の削減のため、ヒートマップ層のデータ構造をピクセル単位のワンホットエンコーディング3D配列から実数値2D配列へと再設計した。ヒートマップ表現の変更に対応するため、損失関数も従来のRMSEベースから加重交差エントロピーに基づくものへと再設計された。総合的な検証の結果、TrackNetV2の訓練フェーズにおける精度(accuracy)、適合率(precision)、再現率(recall)はそれぞれ96.3%、97.0%、98.7%を達成し、新たな試合動画に対するテストでは85.2%、97.2%、85.4%を記録した。3入力3出力バージョンのTrackNetV2の処理速度は31.84 FPSに達した。本研究のデータセットおよびソースコードは、https://nol.cs.nctu.edu.tw:234/open-source/TrackNetv2/ にて公開されている。