7日前
BootsTAP:追跡Any-Point用のブートストラップトレーニング
Carl Doersch, Pauline Luc, Yi Yang, Dilara Gokay, Skanda Koppula, Ankush Gupta, Joseph Heyward, Ignacio Rocco, Ross Goroshin, João Carreira, Andrew Zisserman

要約
物理現象および運動に関するモデルの理解を高めるためには、現実のシーンにおける剛体表面の運動や変形を正確に捉える能力を付与することが有効である。このような能力を形式化したものが「任意点追跡(Tracking-Any-Point: TAP)」であり、動画内における剛体表面上の任意の点を、空間的・時間的に高密度に追跡する能力を要求する。現在、TAPのための大規模な真値(groundtruth)訓練データはシミュレーション環境にのみ存在しており、その対象となる物体や運動の種類は依然として限定的である。本研究では、アーキテクチャの最小限の変更で、大規模かつラベルなし・キュレーションなしの実世界データを活用し、自己教師学習に基づく学生-教師(student-teacher)フレームワークを用いてTAPモデルの性能向上を実現することを示した。TAP-Vidベンチマークにおいて、従来の結果を大幅に上回る最先端の性能を達成した。具体的には、TAP-Vid-DAVISの精度が61.3%から67.4%へ、TAP-Vid-Kineticsでは57.2%から62.5%へと向上した。視覚化結果については、プロジェクトウェブページ(https://bootstap.github.io/)をご覧ください。