2달 전

디자인을 통한 투명성: 시각적 추론에서 성능과 해석 가능성 간의 격차를 좁히다

David Mascharka; Philip Tran; Ryan Soklaski; Arjun Majumdar
디자인을 통한 투명성: 시각적 추론에서 성능과 해석 가능성 간의 격차를 좁히다
초록

시각적 질문 응답은 이미지에 대한 고차원 추론을 필요로 하며, 이는 복잡한 지시사항을 따르기 위해 기계 시스템이 갖춰야 하는 기본적인 능력입니다. 최근에 모듈형 네트워크가 시각적 추론 작업을 수행하는 효과적인 프레임워크로 입증되었습니다. 그러나 초기의 모듈형 네트워크는 일정 수준의 모델 투명성을 가지고 설계되었음에도 불구하고, 복잡한 시각적 추론 벤치마크에서 성능이 부족했습니다. 현재 최신 접근 방식들은 추론 과정을 이해할 수 있는 효과적인 메커니즘을 제공하지 않습니다. 본 논문에서는 해석 가능한 모델과 최신 시각적 추론 방법 사이의 성능 차이를 줄였습니다. 우리는 여러 가지 시각적 추론 원시형태(primitives)를 제안하며, 이를 조합하면 복잡한 추론 작업을 명시적으로 해석 가능한 방식으로 수행할 수 있는 모델이 나타납니다. 이러한 원시형태들의 출력물의 정확성과 해석 가능성은 결과 모델의 강점과 약점을 진단하는 데 있어 유래 없는 능력을 제공합니다. 특히, 우리는 이러한 원시형태들이 매우 우수한 성능을 발휘함을 보여주며, CLEVR 데이터셋에서 99.1%의 최고 정확도를 달성하였습니다. 또한 우리의 모델이 새로운 객체 속성이 포함된 소량의 데이터가 주어졌을 때 일반화된 표현을 효과적으로 학습할 수 있음을 보여주었습니다. CoGenT 일반화 작업을 사용하여, 현재 최신 기술보다 20% 포인트 이상 개선된 성능을 보여주었습니다.

디자인을 통한 투명성: 시각적 추론에서 성능과 해석 가능성 간의 격차를 좁히다 | 최신 연구 논문 | HyperAI초신경