2ヶ月前

深層学習の意味論的タスクを活用した歩行者検出

Yonglong Tian; Ping Luo; Xiaogang Wang; Xiaoou Tang

要約

深層学習手法は、生のピクセルから特徴を学習する能力により、歩行者検出において大きな成功を収めています。しかし、これらの手法は主に中間レベルの表現（例：歩行者の姿勢）を捉え、正解と難易度の高い負例サンプル（大いなる曖昧性を持つもの、例えば特定の視点から「木の幹」や「電線柱」が歩行者に類似する形状や外観を持つ場合）を混同します。この曖昧性は高次元表現によって区別することができます。そのため、本研究では歩行者検出と意味論的なタスク（歩行者の属性（例：「リュックサックを持っている」）、シーンの属性（例：「道路」「木」「水平」））を共同で最適化することを目指しています。高価なシーン属性のアノテーションではなく、既存のシーンセグメンテーションデータセットから歩行者データセットへ属性情報を転送することで、複数のタスクと複数のデータソースから高次元特徴を学習する新しい深層モデルを提案しています。異なるタスクには異なる収束速度があり、異なるデータセットからのデータには異なる分布があるため、各タスク間での調整とデータセット間での差異低減のために慎重にマルチタスク目的関数が設計されています。この目的関数における各タスクの重要係数とネットワークパラメータは反復的に推定されます。広範な評価実験により、提案手法がCaltechおよびETHデータセットにおいて現状最高水準を超える性能を示していることが確認されました。特に、これらの困難なデータセットにおいて、以前の深層モデルによる見逃し率がそれぞれ17%および5.5%減少しました。