DenseFusion: 反復的な密集フュージョンによる6Dオブジェクトポーズ推定

RGB-D画像から6次元物体姿勢推定を行う際の主要な技術的課題は、2つの補完的なデータソースを完全に活用することである。従来の研究では、RGB画像と深度情報を別々に抽出するか、コストのかかる後処理ステップを使用することが多かったが、これにより混雑したシーンやリアルタイムアプリケーションでの性能が制限されていた。本研究では、DenseFusionという既知の物体集合からRGB-D画像を用いて6次元姿勢を推定する汎用フレームワークを提案する。DenseFusionは、2つのデータソースを個別に処理し、新しいdense fusionネットワークを使用してピクセルごとの高密度特徴埋め込みを抽出し、そこから姿勢を推定する異種アーキテクチャである。さらに、エンドツーエンドの反復的な姿勢洗練プロセスを統合しており、このプロセスにより姿勢推定の精度が向上するとともに、ほぼリアルタイムの推論が可能となっている。実験結果は、YCB-VideoおよびLineMODの2つのデータセットにおいて当手法が最先端のアプローチを超えることを示している。また、提案手法を実際のロボットに適用し、推定された姿勢に基づいて物体を把持・操作する実証実験も行った。注:- "6D object pose estimation" は「6次元物体姿勢推定」と訳しました。- "RGB-D image" は「RGB-D画像」と訳しました。- "dense feature embedding" は「高密度特徴埋め込み」と訳しました。- "iterative pose refinement procedure" は「反復的な姿勢洗練プロセス」と訳しました。- "near real-time inference" は「ほぼリアルタイムの推論」と訳しました。