HyperAI초신경

Ego-R1: 초장기 자기중심 비디오 추론을 위한 도구 사고 체인

Shulin Tian, Ruiqi Wang, Hongming Guo, Penghao Wu, Yuhao Dong, Xiuying Wang, Jingkang Yang, Hao Zhang, Hongyuan Zhu, Ziwei Liu
발행일: 6/17/2025
Ego-R1: 초장기 자기중심 비디오 추론을 위한 도구 사고 체인
초록

우리는 Ego-R1이라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 수일에서 수주에 걸친 초장기 제1인칭 동영상에 대한 추론을 수행하며, 강화학습(RL)을 통해 훈련된 Ego-R1 에이전트가 조정하는 구조화된 도구 사고 과정(Chain-of-Tool-Thought, CoTT)을 활용합니다. 인간의 문제 해결 전략에서 영감을 받은 CoTT는 복잡한 추론을 모듈식 단계로 분해하며, RL 에이전트는 각 단계마다 특정 도구를 호출하여 시간적 검색과 다중 모달 이해 등의 작업을 반복적으로 협력적으로 해결합니다. 우리는 CoTT 데이터를 사용하여事前훈련된 언어 모델의 지도 학습 미세 조정(Supervised Finetuning, SFT)과 RL을 포함하는 두 단계 훈련 패러다임을 설계했습니다. 훈련을 용이하게 하기 위해, Ego-CoTT-25K와 Ego-QA-4.4K로 구성된 Ego-R1 데이터셋을 구축하였습니다. 또한, 우리의 Ego-R1 에이전트는 하이브리드 소스에서 인증된 질문-답변 쌍들을 포함하는 새로운 주간 동영상 QA 벤치마크인 Ego-R1 벤치에서 평가되었습니다. 광범위한 실험 결과는 우리의 Ego-R1 에이전트가 초장기 제1인칭 동영상을 이해하는 데 특유한 도전 과제를 효과적으로 해결할 수 있으며, 몇 시간에서 한 주까지의 시간 범위를 크게 확장할 수 있음을 보여줍니다.注:在“事前훈련된”这个词语中,“事前”是中文词汇,正确的韩文翻译应该是“사전”. 因此,修正后的翻译如下:우리는 Ego-R1이라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 수일에서 수주에 걸친 초장기 제1인칭 동영상에 대한 추론을 수행하며, 강화학습(RL)을 통해 훈련된 Ego-R1 에이전트가 조정하는 구조화된 도구 사고 과정(Chain-of-Tool-Thought, CoTT)을 활용합니다. 인간의 문제 해결 전략에서 영감을 받은 CoTT는 복잡한 추론을 모듈식 단계로 분해하며, RL 에이전트는 각 단계마다 특정 도구를 호출하여 시간적 검색과 다중 모달 이해 등의 작업을 반복적으로 협력적으로 해결합니다. 우리는 CoTT 데이터를 사용하여 사전훈련된 언어 모델의 지도 학습 미세 조정(Supervised Finetuning, SFT)과 RL을 포함하는 두 단계 훈련 패러다임을 설계했습니다. 훈련을 용이하게 하기 위해, Ego-CoTT-25K와 Ego-QA-4.4K로 구성된 Ego-R1 데이터셋을 구축하였습니다. 또한, 우리의 Ego-R1 에이전트는 하이브리드 소스에서 인증된 질문-답변 쌍들을 포함하는 새로운 주간 동영상 QA 벤치마크인 Ego-R1 벤치에서 평가되었습니다. 광범위한 실험 결과는 우리의 Ego-R1 에이전트가 초장기 제1인칭 동영상을 이해하는 데 특유한 도전 과제를 효과적으로 해결할 수 있으며, 몇 시간에서 한 주까지의 시간 범위를 크게 확장할 수 있음을 보여줍니다.