17日前

混沌から秩序へ：オブジェクト認識および検出のためのイベント表現の順序付け

Nikola Zubić, Daniel Gehrig, Mathias Gehrig, Davide Scaramuzza

要約

現在、最先端の深層ニューラルネットワークは、イベントを処理する際、まずそれを密なグリッド構造の入力表現に変換した後、既存のネットワークを用いて処理を行います。しかし、タスクに適した表現を選定するには、従来、各表現に対してニューラルネットワークを訓練し、検証スコアに基づいて最良のものを選択する必要があり、非常に時間のかかるプロセスでした。本研究では、原始的なイベントとその表現との間のグロモフ・ワッサーシュタイン不一致（Gromov-Wasserstein Discrepancy; GWD）に基づいて表現を選定することで、このボトルネックを解消しました。GWDの計算はニューラルネットワークの訓練に比べて約200倍高速であり、複数の表現、ネットワークバックボーン、データセット、タスクにわたり、イベント表現のタスク性能の順位を保持しています。したがって、高いタスクスコアを持つ表現を見つけることは、GWDが低い表現を見つけることに等しいです。この知見を活用して、本研究では初めて、広範なイベント表現のファミリーに対してハイパーパラメータ探索を実施し、従来の最先端を上回る新たな強力な表現を発見しました。最適化された表現は、1 Mpxデータセットで既存表現より1.7 mAP向上し、Gen1データセットでは0.3 mAP向上し、ミニN-ImageNetベンチマークでは分類スコアが3.8%高い結果を達成しました。さらに、Gen1データセットでは最先端の手法を2.1 mAP上回り、1 Mpxデータセットでは従来の前向き型手法を6.0 mAP上回りました。本研究は、イベントベース学習における明示的な表現最適化という、全く新しい未開拓の分野を開拓しました。