19일 전

다중모달 레시피 내의 절차적 개념의 잠재적 일치

Hossein Rajaby Faghihi, Roshanak Mirzaee, Sudarshan Paliwal, Parisa Kordjamshidi
다중모달 레시피 내의 절차적 개념의 잠재적 일치
초록

우리는 최근 공개된 다중모달 QA 데이터셋인 RecipeQA에서 절차적 추론을 처리하기 위해 새로운 정렬 메커니즘을 제안한다. 본 모델은 이미지와 지시사항을 포함한 조리법에 대한 독해 능력을 평가하는 텍스트 클로즈(문장 빈칸 채우기) 문제를 해결한다. 우리는 주의(attention) 네트워크, 다중모달 표현, 그리고 지시사항과 후보 답변 간의 잠재적 정렬 공간의 강력한 특성을 활용하여 문제를 해결한다. 또한, 정렬 행렬에 대한 최대 풀링(max-pooling) 연산을 개선하기 위해 제약 조건이 있는 최대 풀링(constrained max-pooling)을 도입하여 모델의 출력 간에 상호 배타적 조건을 부과한다. 평가 결과, 기존의 베이스라인 대비 19%의 성능 향상을 확인할 수 있었다.

다중모달 레시피 내의 절차적 개념의 잠재적 일치 | 연구 논문 | HyperAI초신경