Command Palette

Search for a command to run...

한 달 전

TempSamp-R1: 비디오 LLMs를 위한 강화 학습 미세조정을 통한 효과적인 시계열 샘플링

Yunheng Li Jing Cheng Shaoyong Jia Hangyi Kuang Shaohui Jiao Qibin Hou Ming-Ming Cheng

TempSamp-R1: 비디오 LLMs를 위한 강화 학습 미세조정을 통한 효과적인 시계열 샘플링

초록

이 논문은 다중모달 대규모 언어 모델(MLLM)을 영상 시계열 지정(video temporal grounding) 작업에 효과적으로 적응시키기 위해 설계된 새로운 강화 학습 미세조정 프레임워크인 TempSamp-R1을 소개한다. 기존의 강화 학습 방법, 예를 들어 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)는 정책 업데이트를 위해 온정책 샘플링(on-policy sampling)에 의존하고 있음을 밝히고 있다. 그러나 시계열 탐색 공간이 큰 작업에서는 이 전략이 효율성이 낮고 성능 제한이 크며, 종종 시계열적으로 정확한 해를 탐지하지 못한다는 문제가 있다. 이러한 한계를 해결하기 위해 TempSamp-R1은 오프정책(off-policy) 지도 정보로서 진실값(annotation)을 활용하여 시계열적으로 정밀한 안내를 제공함으로써, 온정책 해에서 발생하는 희소성과 일치하지 않는 문제를 효과적으로 보완한다. 또한 보상 기반 업데이트의 변동성을 줄이고 학습을 안정화하기 위해, 비선형적인 소프트 어드밴티지 계산 방식을 제안한다. 이 방법은 비대칭 변환을 통해 보상 피드백을 동적으로 재구성함으로써 보다 안정적인 학습을 가능하게 한다. 더불어 하이브리드 사고 체인(Chain-of-Thought, CoT) 학습 파라다임을 도입하여, 하나의 통합된 모델이 CoT 및 비-CoT 추론 모드를 모두 지원하도록 최적화함으로써, 추론 복잡도가 다양한 쿼리를 효율적으로 처리할 수 있도록 한다. 실험 결과, TempSamp-R1은 GRPO 기반 기준 모델들을 모두 상회하며, 주요 벤치마크 데이터셋에서 새로운 최고 성능을 달성하였다: Charades-STA (R1@0.7: 52.9%, +2.7%), ActivityNet Captions (R1@0.5: 56.0%, +5.3%), QVHighlights (mAP: 30.0%, +3.0%). 또한 제한된 데이터 환경에서도 우수한 소수 샘플 일반화 능력을 보여주며, 실제 적용 가능성을 높였다. 코드: https://github.com/HVision-NKU/TempSamp-R1

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
TempSamp-R1: 비디오 LLMs를 위한 강화 학습 미세조정을 통한 효과적인 시계열 샘플링 | 연구 논문 | HyperAI초신경