
近年、パラメトリックなポーズおよび形状表現を活用する3D人体再構成(3DHR)分野は顕著な進展を遂げている。しかし、実世界の多様なシーン(いわゆる「イン・ザ・ワイルド(in-the-wild)」データ)に対して3DHR技術を適用する際には依然として限界が存在する。その主な原因は、さまざまな要因により、イン・ザ・ワイルドシーンにおける正確な3D人体ポーズの真値(Ground Truth, GT)を収集することが困難である点ににある。近年の3DHRにおけるテスト時精緻化(test-time refinement)アプローチは、初期の2Dオフ・ザ・シェルフ(off-the-shelf)人体キーポイント情報を活用することで、イン・ザ・ワイルドデータにおける3D監視情報の不足を補おうとしている。しかし、我々は、追加の2D監視情報だけでは、一般的な3DHRバックボーンにおいて過剰適合(overfitting)の問題が生じることを観察した。これにより、3DHRのテスト時精緻化タスクは実現困難に思えるようになった。この課題に応えるために、我々は協調的アプローチに基づく戦略を提案する。具体的には、単一のフレームワーク内で複数の3DHRモデルを協調させることで、初期出力を直接改善する前適応(pre-adaptation)手法を導入する。その後、過剰適合を最小限に抑える特定の設定下で、この手法をテスト時適応(test-time adaptation)と統合することで、さらなる性能向上を実現する。本フレームワークは「3DHR-Co」と命名された。実験結果から、提案手法が一般的な古典的3DHRバックボーンの性能を顕著に向上させ、ポーズ誤差を最大で約34mmまで低減できることを示した。これにより、イン・ザ・ワイルドベンチマークデータにおいても、これらのバックボーンがトップクラスの性能を発揮することが可能となった。この成果は、我々のアプローチが、一般的な古典的3DHRバックボーンの本質的な潜在能力を引き出すことに貢献していることを示している。これらの知見を基に、我々は提案フレームワークにおけるさまざまな設定をさらに検討し、協調的アプローチが3DHRタスクにおいて果たす能力をより詳細に明らかにすることを目指した。