
体現された知覚(Embodied perception)とは、自律エージェントが環境を認識し、その認識に基づいて行動(再行動)する能力を指します。エージェントの反応性は、その処理パイプラインの遅延によって大きく制御されます。過去の研究では、遅延と精度の間のアルゴリズム的なトレードオフが検討されてきましたが、Pareto最適な遅延-精度曲線に沿った異なる方法を比較する明確な指標が存在していませんでした。この問題に対処するために、我々は標準的なオフライン評価とリアルタイムアプリケーションとの間の乖離に注目しました:アルゴリズムが特定のフレームの処理を完了する頃には、周囲の世界はすでに変化しています。この目的のもと、我々はリアルタイムオンライン知覚のために遅延と精度を一貫して統合した単一の指標である「ストリーミング精度」(streaming accuracy)を提案します。この指標の重要な洞察は、各時間点で全体的な知覚スタックの出力を共同で評価することであり、計算中に無視すべきストリーミングデータ量を考えさせるものです。より広く見れば、この指標に基づいて、任意の単一フレームタスクをストリーミング知覚タスクに系統的に変換するメタベンチマークを導入します。都市ビデオストリームにおける物体検出とインスタンスセグメンテーションという示例的なタスクに焦点を当て、高品質かつ時間的に密なアノテーションを持つ新しいデータセットを提供します。我々が提案する解決策と経験的分析は以下の驚くべき結論を示しています:(1) Pareto最適な遅延-精度曲線上でストリーミング精度を最大化する最適な「甘いスポット」(sweet spot)が存在します、(2) 非同期追跡と未来予測は自然に内部表現として現れ、ストリーミング知覚を可能にする手段となっています、(3) 動的スケジューリングを使用することで時間的エイリアシング(temporal aliasing)を克服でき、結果として待機状態で「何もしない」ことで遅延が最小化されるという逆説的な結果を得ることができます。