Command Palette
Search for a command to run...
Ego-R1: 초장기 자기중심 비디오 추론을 위한 도구 사고 체인
Ego-R1: 초장기 자기중심 비디오 추론을 위한 도구 사고 체인
Shulin Tian Ruiqi Wang Hongming Guo Penghao Wu Yuhao Dong Xiuying Wang Jingkang Yang Hao Zhang Hongyuan Zhu Ziwei Liu
초록
우리는 Ego-R1이라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 수일에서 수주에 걸친 초장기 제1인칭 동영상에 대한 추론을 수행하며, 강화학습(RL)을 통해 훈련된 Ego-R1 에이전트가 조정하는 구조화된 도구 사고 과정(Chain-of-Tool-Thought, CoTT)을 활용합니다. 인간의 문제 해결 전략에서 영감을 받은 CoTT는 복잡한 추론을 모듈식 단계로 분해하며, RL 에이전트는 각 단계마다 특정 도구를 호출하여 시간적 검색과 다중 모달 이해 등의 작업을 반복적으로 협력적으로 해결합니다. 우리는 CoTT 데이터를 사용하여事前훈련된 언어 모델의 지도 학습 미세 조정(Supervised Finetuning, SFT)과 RL을 포함하는 두 단계 훈련 패러다임을 설계했습니다. 훈련을 용이하게 하기 위해, Ego-CoTT-25K와 Ego-QA-4.4K로 구성된 Ego-R1 데이터셋을 구축하였습니다. 또한, 우리의 Ego-R1 에이전트는 하이브리드 소스에서 인증된 질문-답변 쌍들을 포함하는 새로운 주간 동영상 QA 벤치마크인 Ego-R1 벤치에서 평가되었습니다. 광범위한 실험 결과는 우리의 Ego-R1 에이전트가 초장기 제1인칭 동영상을 이해하는 데 특유한 도전 과제를 효과적으로 해결할 수 있으며, 몇 시간에서 한 주까지의 시간 범위를 크게 확장할 수 있음을 보여줍니다.注:在“事前훈련된”这个词语中,“事前”是中文词汇,正确的韩文翻译应该是“사전”. 因此,修正后的翻译如下:우리는 Ego-R1이라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 수일에서 수주에 걸친 초장기 제1인칭 동영상에 대한 추론을 수행하며, 강화학습(RL)을 통해 훈련된 Ego-R1 에이전트가 조정하는 구조화된 도구 사고 과정(Chain-of-Tool-Thought, CoTT)을 활용합니다. 인간의 문제 해결 전략에서 영감을 받은 CoTT는 복잡한 추론을 모듈식 단계로 분해하며, RL 에이전트는 각 단계마다 특정 도구를 호출하여 시간적 검색과 다중 모달 이해 등의 작업을 반복적으로 협력적으로 해결합니다. 우리는 CoTT 데이터를 사용하여 사전훈련된 언어 모델의 지도 학습 미세 조정(Supervised Finetuning, SFT)과 RL을 포함하는 두 단계 훈련 패러다임을 설계했습니다. 훈련을 용이하게 하기 위해, Ego-CoTT-25K와 Ego-QA-4.4K로 구성된 Ego-R1 데이터셋을 구축하였습니다. 또한, 우리의 Ego-R1 에이전트는 하이브리드 소스에서 인증된 질문-답변 쌍들을 포함하는 새로운 주간 동영상 QA 벤치마크인 Ego-R1 벤치에서 평가되었습니다. 광범위한 실험 결과는 우리의 Ego-R1 에이전트가 초장기 제1인칭 동영상을 이해하는 데 특유한 도전 과제를 효과적으로 해결할 수 있으며, 몇 시간에서 한 주까지의 시간 범위를 크게 확장할 수 있음을 보여줍니다.