3ヶ月前

YOLOv9:プログラム可能な勾配情報を用いた望むものを学ぶ方法

Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao
YOLOv9:プログラム可能な勾配情報を用いた望むものを学ぶ方法
要約

現在のディープラーニング手法は、モデルの予測結果が真の値(ground truth)に最も近づくように、最適な目的関数(objective function)を設計することに注力している。同時に、予測に必要な十分な情報を効率的に獲得できる適切なネットワークアーキテクチャの設計も不可欠である。しかし、従来の手法は、入力データが層ごとに特徴抽出と空間変換を繰り返す過程で、膨大な情報が喪失されるという事実を無視している。本論文では、深層ネットワークを介してデータが伝送される際の情報損失という重要な問題、すなわち情報ボトルネック(information bottleneck)および可逆関数(reversible functions)について深く考察する。さらに、深層ネットワークが複数の目的を達成するために要する多様な変化に対応するため、プログラマブル・グレディエント・インフォメーション(Programmable Gradient Information, PGI)という新しい概念を提案する。PGIは、ターゲットタスクに必要な入力情報の完全な再構成を可能にし、目的関数の計算に用いることで、信頼性の高い勾配情報を得てネットワーク重みの更新を実現する。また、勾配パス計画(gradient path planning)に基づく新しい軽量型ネットワークアーキテクチャとして、汎用的効率的レイヤー集約ネットワーク(Generalized Efficient Layer Aggregation Network, GELAN)を設計した。GELANのアーキテクチャは、PGIが軽量モデルにおいて優れた性能を発揮することを実証している。本研究では、MS COCOデータセットを用いたオブジェクト検出タスクにおいて、提案するGELANおよびPGIの有効性を検証した。その結果、GELANは深度方向畳み込み(depth-wise convolution)を用いた最先端手法と比較して、従来の畳み込み演算子のみを用いても、パラメータの利用効率が優れていることが確認された。PGIは軽量モデルから大規模モデルまで、幅広いモデルに適用可能であり、完全な情報を復元できるため、大規模データセットで事前学習された最先端モデルよりも、スクラッチから学習を開始するモデルがより優れた性能を達成できる。その比較結果は図1に示されている。ソースコードは以下のGitHubリポジトリで公開されている:https://github.com/WongKinYiu/yolov9。