
우리는 비디오에서 객체 분할을 공간과 시간에서의 그래프 파티셔닝 문제로 정식화합니다. 이때 노드는 픽셀이며, 그 관계는 국소 이웃을 형성합니다. 우리는 이 픽셀 수준 그래프에서 가장 강한 클러스터가 주요 객체 분할을 나타낸다고 주장합니다. 우리는 새로운이고 빠른 3D 필터링 기술을 사용하여 주요 클러스터를 계산합니다. 이 기술은 그래프의 인접 행렬의 주요 고유벡터를 찾는 스펙트럼 클러스터링 해법을 구현하지 않고도 찾아낼 수 있습니다 - 명시적으로 행렬을 생성하는 것은 처리 불가능하기 때문입니다. 우리의 방법은 행렬의 주요 고유벡터를 찾기 위한 전력 반복법에 기반하며, 이를 증명하였습니다. 즉, 공간-시간 특징 볼륨에서 특정 세트의 3D 컨볼루션을 수행하는 것과 동일하다는 것입니다. 이렇게 하면 행렬을 생성하지 않고 GPU에서 빠르고 병렬로 구현할 수 있습니다. 실험 결과, 우리의 방법이 인접 행렬에 직접 적용된 전통적인 전력 반복법보다 훨씬 빠름을 보여주었습니다.다른 연구들과 달리, 우리의 작업은 픽셀 수준에서 공간과 시간 내 객체 일관성을 유지하는 데 중점을 두고 있습니다. 이를 위해 프레임 수준에서 강력한 픽셀별 특징이 필요합니다. 이는 백본 네트워크나 다른 방법들의 출력을 통합하고, 감독 없이 해당 해법을 빠르게 개선하는 데 완벽하게 적합합니다. 실험에서는 DAVIS-2016 데이터셋에서 비감독 및 준비지도 작업 모두에 대해 동일한 하이퍼파라미터 집합으로 최상위 최신 방법론들보다 일관되게 개선되는 결과를 얻었습니다. 또한 잘 알려진 SegTrackv2 데이터셋에서도 최상의 결과를 달성하였습니다.