9일 전

계란을 깨지 않고 오믈레트를 만들 수는 없다: 대규모 비디오-언어 LLM을 활용한 타당한 행동 예측

Himangi Mittal, Nakul Agarwal, Shao-Yuan Lo, Kwonjoon Lee
계란을 깨지 않고 오믈레트를 만들 수는 없다: 대규모 비디오-언어 LLM을 활용한 타당한 행동 예측
초록

우리는 현실 세계에서 타당성이 있는 행동 시퀀스를 예측하기 위한 대규모 비디오-언어 모델인 PlausiVL을 소개한다. 미래 행동을 예측하기 위한 많은 연구 노력이 이루어졌지만, 기존의 접근 방식들은 행동 시퀀스의 타당성 측면을 고려하지 못했다. 이 한계를 극복하기 위해 본 연구에서는 대규모 비디오-언어 모델의 생성 능력을 탐구하고, 행동 시퀀스의 타당성을 이해하기 위해 두 가지 목적 함수를 제안한다. 첫째, 반사적(Counterfactual) 기반의 타당한 행동 시퀀스 학습 손실(loss), 둘째, 장기 시점 행동 반복 손실(loss)이다. 우리는 시계열 논리적 제약 조건과 동사-명사 행동 쌍의 논리적 제약 조건을 활용하여 타당하지 않거나 반사적인 행동 시퀀스를 생성하고, 이를 타당한 행동 시퀀스 학습 손실로 모델을 학습시킨다. 이 손실은 모델이 타당한 행동 시퀀스와 그렇지 않은 시퀀스를 구분할 수 있도록 돕고, 행동 예측 작업에 필수적인 암묵적인 시계열적 신호를 학습하는 데 기여한다. 또한 장기 시점 행동 반복 손실은 더 긴 시간 창 내에서 반복되기 쉬운 행동에 더 높은 벌점을 부과함으로써, 모델이 다양한 타당한 행동 시퀀스를 생성할 수 있도록 한다. 제안한 방법은 Ego4D와 EPIC-Kitchens-100 두 개의 대규모 데이터셋에서 평가되었으며, 행동 예측 작업에서 기존 방법 대비 성능 향상을 입증하였다.

계란을 깨지 않고 오믈레트를 만들 수는 없다: 대규모 비디오-언어 LLM을 활용한 타당한 행동 예측 | 최신 연구 논문 | HyperAI초신경