2달 전

REX: 추론 인식 및 근거 있는 설명

Chen, Shi ; Zhao, Qi
REX: 추론 인식 및 근거 있는 설명
초록

신뢰할 수 있는 AI 시스템의 두 가지 핵심 속성은 효과성과 해석 가능성입니다. 최근 시각적 추론 연구의 대부분은 예측된 답변의 정확도를 향상시키는 데 초점을 맞추고 있으며, 결정背後的理由解释上却关注较少。因此,这些研究通常利用虚假偏差,而不是真正对视觉-文本数据进行推理,并且尚未开发出通过考虑两种模态的关键信息来解释其决策的能力。本文从三个不同的角度出发,旨在缩小这一差距:首先,我们定义了一种新的多模态解释类型,该类型通过逐步遍历推理过程并在图像中标记关键词来解释决策。我们开发了一个功能程序,以顺序执行不同的推理步骤,并构建了一个包含1,040,830个多模态解释的新数据集。其次,我们确定了在解释决策时紧密耦合视觉和文本模态之间重要组件的关键需求,并提出了一种新颖的解释生成方法,该方法显式地建模单词与感兴趣区域之间的成对对应关系。这大大提高了视觉定位能力,从而增强了可解释性和推理性能。最后,借助我们的新数据和方法,我们在不同设置下进行了广泛的分析,包括多任务学习和迁移学习,以研究我们解释的有效性。我们的代码和数据可在 https://github.com/szzexpoi/rex 获取。修正后的翻译如下:신뢰할 수 있는 AI 시스템의 두 가지 핵심 속성은 효과성과 해석 가능성입니다. 최근 시각적 추론 연구의 대부분은 예측된 답변의 정확도를 향상시키는 데 초점을 맞추고 있으며, 결정에 대한 근거 설명에는 상대적으로 적은 관심을 기울이고 있습니다. 그 결과, 이러한 연구들은 주로 시각-텍스트 데이터에서 실제로 추론하는 대신 가짜 편향을 활용하며, 아직 두 모달로부터 중요한 정보를 고려하여 자신의 의사결정 과정을 설명하는 능력을 개발하지 못했습니다. 본 논문에서는 세 가지 다른 관점에서 이 간극을 좁히는 것을 목표로 합니다: 첫째, 우리는 추론 과정을 단계적으로 탐색하고 이미지에서 주요 단어를 연결하여 의사결정을 설명하는 새로운 유형의 다중 모달 설명을 정의합니다. 우리는 다양한 추론 단계를 순차적으로 실행하기 위한 기능 프로그램을 개발하였으며, 1,040,830개의 다중 모달 설명이 포함된 새로운 데이터셋을 구축하였습니다. 둘째, 우리는 의사결정을 설명하기 위해 시각적 및 텍스트 모달 간의 중요 구성 요소를 밀접하게 결합해야 하는 필수적인 요구사항을 확인하였으며, 단어와 관심 영역 사이의 쌍별 대응 관계를 명시적으로 모델링하는 혁신적인 설명 생성 방법을 제안하였습니다. 이 방법은 시각적 지칭 능력을 크게 향상시키며, 그 결과 해석 가능성이와 추론 성능이 강화되었습니다. 마지막으로, 우리의 새로운 데이터와 방법을 활용하여 다양한 설정 하에서 다중 작업 학습 및 전이 학습 등을 포함하여 우리 설명의 효과성을 광범위하게 분석하였습니다. 우리의 코드와 데이터는 https://github.com/szzexpoi/rex 에서 제공됩니다.

REX: 추론 인식 및 근거 있는 설명 | 최신 연구 논문 | HyperAI초신경