6ヶ月前

概要

コンピュータビジョンにおける長年の課題の一つは、3次元形状の認識に用いる表現方法に関するものである。すなわち、3次元形状は、ボクセルグリッドやポリゴンメッシュといった、形状の自然な3次元形式上で動作する記述子（descriptor）によって表現すべきか、それとも視点に基づく記述子によって効果的に表現できるのか、という問題である。本研究では、3次元形状の2次元画像上でのレンダリング画像群から形状を学習して認識するという文脈において、この問題に取り組む。まず、それぞれのレンダリング画像を独立して認識するように学習された標準的なCNNアーキテクチャを提示し、単一の視点画像からでも、最先端の3次元形状記述子を用いる場合よりもはるかに高い精度で3次元形状を認識できることを示す。複数の視点画像が与えられると、認識精度はさらに向上する。さらに、3次元形状の複数の視点情報を統合し、一つのコンパクトな形状記述子として出力する新しいCNNアーキテクチャを提案する。このアーキテクチャは、形状の手描きスケッチの正確な認識にも応用可能である。結論として、2次元画像の視点群は3次元形状認識にとって極めて情報量が高く、近年登場したCNNアーキテクチャおよびその派生技術に適していることが示された。

ソースPDF