에너지 기반 잠재 공간을 사용한 생성적 비전 트랜스포머의 학습 방법론: 주목도 예측을 위한 연구

비전 트랜스포머 네트워크는 많은 컴퓨터 비전 작업에서 우수한 성능을 보여주었습니다. 본 논문에서는 주요 객체 검출을 위해 정보 기반 에너지 사전 확률 분포를 따르는 잠재 변수를 갖는 새로운 생성형 비전 트랜스포머를 제안합니다. 비전 트랜스포머 네트워크와 에너지 기반 사전 모델은 마르코프 연쇄 몬테카를로 기반의 최대 우도 추정을 통해 공동으로 훈련됩니다. 이 과정에서 잠재 변수의 처리 불가능한事後と先驗分布의 샘플링은 Langevin 동역학을 통해 수행됩니다. 또한, 생성형 비전 트랜스포머를 사용하면 이미지로부터 픽셀 단위 불확실성 맵을 쉽게 얻을 수 있으며, 이는 모델이 이미지에서 주요성을 예측하는 데 대한 신뢰도를 나타냅니다. 기존의 생성 모델들이 잠재 변수의 사전 분포를 단순한 등방성 가우시안 분포로 정의하는 것과 달리, 우리의 모델은 더 표현력이 뛰어난 정보 기반 에너지 사전 분포를 사용하여 데이터의 잠재 공간을 포착할 수 있습니다. 제안된 프레임워크는 RGB 및 RGB-D 주요 객체 검출 작업에 적용되었습니다. 광범위한 실험 결과는 우리의 프레임워크가 정확한 주요성 예측뿐만 아니라 인간의 인식과 일치하는 의미 있는 불확실성 맵도 얻을 수 있음을 보여줍니다.注:在上述翻译中,“事后”和“先验”这两个术语被错误地转换成了韩语中的汉字词,正确的翻译应该是“사후”(事后)和“사전”(先验)。以下是修正后的版本:비전 트랜스포머 네트워크는 많은 컴퓨터 비전 작업에서 우수한 성능을 보여주었습니다. 본 논문에서는 주요 객체 검출을 위해 정보 기반 에너지 사전 확률 분포를 따르는 잠재 변수를 갖는 새로운 생성형 비전 트랜스포머를 제안합니다. 비전 트랜스포머 네트워크와 에너지 기반 사전 모델은 마르코프 연쇄 몬테카를로 기반의 최대 우도 추정을 통해 공동으로 훈련됩니다. 이 과정에서 잠재 변수의 사후와 사전 분포(後と先驗)의 샘플링은 Langevin 동역학(Langevin dynamics)을 통해 수행됩니다. 또한, 생성형 비전 트랜스포머를 사용하면 이미지로부터 픽셀 단위 불확실성 맵을 쉽게 얻을 수 있으며, 이는 모델이 이미지에서 주요성을 예측하는 데 대한 신뢰도를 나타냅니다. 기존의 생성 모델들이 잠재 변수의 사전 분포를 단순한 등방성 가우시안 분포로 정의하는 것과 달리, 우리의 모델은 더 표현력이 뛰어난 정보 기반 에너지 사전 분포를 사용하여 데이터의 잠재 공간을 포착할 수 있습니다. 제안된 프레임워크는 RGB 및 RGB-D 주요 객체 검출 작업에 적용되었습니다. 광범위한 실험 결과는 우리의 프레임워크가 정확한 주요성 예측뿐만 아니라 인간의 인식과 일치하는 의미 있는 불확실성 맵도 얻을 수 있음을 보여줍니다.为了确保术语的一致性和准确性,再次调整如下:비전 트랜스포머 네트워크는 많은 컴퓨터 비전 작업에서 우수한 성능을 보여주었습니다. 본 논문에서는 주요 객체 검출을 위해 정보 기반 에너지 사전 확률 분포(energy-based informative prior)를 따르는 잠재 변수(latent variables)를 갖는 새로운 생성형 비전 트랜스포머(generative vision transformer)를 제안합니다. 비전 트랜스포머 네트워크와 에너지 기반 사전 모델은 마르코프 연쇄 몬테카를로(Markov chain Monte Carlo, MCMC) 기반의 최대 우도 추정(maximum likelihood estimation) 방법으로 공동으로 훈련됩니다. 이 과정에서 처리 불가능한 후验(posterior) 및 사전(prior) 분포로부터 잠재 변수 샘플링은 Langevin 동역학(Langevin dynamics) 알고리즘으로 수행됩니다. 또한, 생성형 비장 트랜스포머(generative vision transformer) 덕분에 우리는 이미지로부터 픽셀 단위 불확실성 맵(pixel-wise uncertainty map)을 쉽게 얻어낼 수 있으며, 이 맵은 모델이 이미지에서 주요성을 예측하는데 있어 얼마나 확신하고 있는지를 나타냅니다. 기존 생성 모델들은 대부분 간단한 등방적 가우시안(isotropic Gaussian distribution) 분포로 잠재 변수들의 사전 확률 분포(prior distribution of the latent variables)를 정의하지만, 우리 모델은 이를 더 표현력 있게 포착하기 위해 정보 기반 에너지 사선 확률(informative energy-based prior probability) 구조를 활용합니다. 제안된 프레임워크(framework)는 RGB 및 RGB-D(RGB and RGB-D) 주요 객체 검출(salient object detection) 작업에 적용되었으며, 광범위하게 수행된 실험 결과(experimental results), 본 프레임웨크가 정확한 주요성 예측(saliency predictions)뿐 아니라 인간 인식(perception of humans)과 일치하는 의미 있는 불확실성 맵(meaningful uncertainty maps consistent with human perception of saliency in images.) 또한 획득할 수 있음을 입증하였습니다.