ICLR 2026 | 작업당 학습 가능 매개변수 125배 감소! 새로운 방법인 작업 토큰(Task Tokens)은 체화된 지능이 복잡한 작업 능력을 향상시키도록 돕습니다.

3달 전

최근 로봇 제어 분야에서 모방 학습이 발전하면서 트랜스포머 기반 행동 기초 모델(BFM)이 개발되었고, 이를 통해 휴머노이드 지능형 에이전트의 다중 모드 제어가 가능해졌습니다. 이러한 모델은 로봇의 골반 위치를 기반으로 특정 좌표로 로봇을 유도하는 것과 같은 고수준 목표 또는 단서를 바탕으로 해결책을 생성합니다. BFM은 제로샷 예제를 통해 견고한 행동을 생성하는 데 탁월하지만, 특정 작업을 수행할 때는 정교한 프롬프트 엔지니어링이 필요한 경우가 많아 최적의 결과를 얻지 못할 수도 있습니다.

이러한 맥락에서,이스라엘 테크니온 공과대학의 연구팀은 BFM의 유연성을 유지하면서 특정 작업에 효과적으로 적용할 수 있는 '작업 토큰'이라는 방법을 제안했습니다.기존 기준 방법과 비교했을 때, 새로운 방법은 작업당 학습 가능한 매개변수 수를 최대 125배까지 줄이고 수렴 속도를 최대 6배까지 향상시킬 수 있습니다.

한편, 연구진은 다양한 작업(분포 외 시나리오 포함)에서 작업 토큰의 효과를 검증하고 다른 프롬프트 방식과의 호환성을 입증했습니다. 실험 결과는 작업 토큰이 일반화 능력을 유지하면서 BFM을 특정 제어 작업에 적용하는 데 유망한 해결책을 제공한다는 것을 보여줍니다.

"Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models"라는 제목의 관련 연구 결과가 ICLR 2026에 채택되었습니다.

연구 하이라이트:

* 작업별 적응: 작업 토큰은 토큰화된 제어를 통해 MaskedMimic(GC-BFM)을 특정 작업에 맞게 조정하며, 기본 모델을 미세 조정할 필요 없이 제로샷 기능을 유지합니다.

* 하이브리드 제어 패러다임: 사용자 정의 상위 수준 사전 정보(예: 텍스트 또는 공동 목표)를 보상 기반 학습 최적화와 원활하게 통합할 수 있도록 합니다.

* 성능 및 일반화 능력: 작업 성능 측면에서는 완전 미세 조정 방법과 유사하며, 환경 변화(중력 및 마찰 등)에 대한 견고성 측면에서는 다른 방법보다 우수합니다.

서류 주소:

https://hyper.ai/papers/2503.22886

최첨단 AI 논문을 더 보려면 여기를 클릭하세요.

https://hyper.ai/en/papers

과제 설정: 실제 상황과 유사한 일련의 시나리오에서 모델의 일반성을 검증한다.

본 연구에서는 모델의 일반성과 적응성을 실제와 유사한 다양한 시나리오에서 검증하기 위해 표준화된 과제 세트를 설계했으며, 각 과제는 제어 문제에 서로 다른 수준의 복잡성을 도입했습니다.

방향 (특정 방향으로 걷는 것)

이 과제는 모델의 기본 보행 제어 및 목표 방향 정렬 기능을 테스트하기 위해 캐릭터가 지정된 방향으로 이동하도록 요구합니다. 성공 기준은 측정 시간 내에 휴머노이드 모델의 목표 방향을 따라 발생하는 속도 편차가 목표 속도의 20%를 초과하지 않는 것입니다.

조종

이 과제는 휴머노이드 모델이 골반을 특정 방향으로 유지하면서 지정된 방향으로 이동하는 것을 요구합니다. 이는 더욱 정교한 모션 제어 기능을 테스트하고 더 복잡한 시나리오를 제시합니다. 성공 기준은 캐릭터가 목표 방향 속도 편차를 20% 이하로 유지하고 전체 방향 편차가 45°를 넘지 않는 것입니다.

도달하다

이 과제에서 휴머노이드 모델은 오른손으로 지정된 좌표점에 도달해야 합니다. 이를 위해서는 움직임에 높은 정밀도가 요구됩니다. 성공 기준은 오른손 위치와 목표 위치 사이의 거리가 20cm 미만인 것입니다.

스트라이크

이 과제는 캐릭터가 먼저 목표물 근처까지 걸어간 다음, 목표물을 쓰러뜨리는 동작을 수행하는 것을 요구합니다. 이는 기본적인 보행 능력뿐만 아니라 시간 관리 및 공간 인식 능력과 같은 복잡한 과제 수행 능력도 평가합니다. 성공 기준은 목표물이 쓰러져 특정 자세로 기울어지고, 기울어진 각도가 약 78°를 넘지 않는 것입니다.

멀리뛰기

참가자는 폭 1미터의 터널을 달려 20미터 지점에 있는 선을 넘어 점프해야 하며, 도약선을 넘은 후에는 땅에 다시 닿지 않아야 합니다. 성공 기준은 점프 거리 1.5미터 이상입니다.

MaskedMimic 아키텍처 기반의 효율적인 작업 적응 솔루션

본 연구에서 제안하는 방법은 MaskedMimic이라는 "목표 조건부 행동 기반 모델(GC-BFM)"을 기반으로 합니다. 학습을 위해 보상 신호에 의존하는 기존의 GCRL 방법과는 달리,MaskedMimic은 Transformer 아키텍처를 결합하여 입력 토큰으로 사용되는 미래 대상에 대해 무작위 마스킹을 수행합니다.이를 통해 미래의 관절 위치, 텍스트 지침, 상호작용 가능한 객체 등 다양한 양식을 통해 인간과 유사한 행동을 학습하고 재현할 수 있습니다.

이러한 아키텍처와 제어 메커니즘의 조합 덕분에 MaskedMimic은 작업 토큰 접근 방식에 이상적인 기반을 제공합니다. 더 나아가 연구원들은 작업별 토큰을 학습하여 하위 작업 성능을 최적화함으로써 MaskedMimic의 기능을 더욱 향상시키고 있습니다.

작업 토큰

아래 다이어그램에서 보는 바와 같이, Task Tokens는 세 가지 유형의 입력 소스를 통합합니다.

* 사전 토큰: 텍스트 프롬프트 또는 결합 조건을 통해 사용자 정의 행동 사전 정보를 도입하는 데 사용되는 선택적 입력입니다.

* 작업 토큰: 현재 목표 관측값을 처리하는 학습된 작업 인코더에 의해 생성됩니다.

* 상태 토큰: 환경의 현재 상태를 나타냅니다.

연구진은 각 새로운 작업에 대해 고유한 토큰을 생성하는 전용 작업 인코더를 훈련시켰습니다. 이러한 작업 토큰은 목표 행동의 고유한 요구 사항과 제약 조건을 캡슐화하여 기본 모델에 간결하면서도 유익한 안내 신호를 제공함으로써, 일반적인 행동 사전 정보를 유지하면서 특정 작업 요구 사항을 충족하는 출력을 생성할 수 있도록 합니다.

태스크 인코더

태스크 인코더는 현재 태스크 목표를 정의하는 관측값을 수신합니다. 이러한 관측값은 에이전트 자체를 기준 좌표계로 하여 표현되며, 태스크 토큰을 출력합니다. 관측값의 형식은 태스크에 따라 다릅니다. 예를 들어, 회전 태스크의 경우 관측값에는 목표물의 이동 방향, 자세 및 목표 속도가 포함됩니다.

MaskedMimic은 미래의 포즈 목표를 기반으로 학습되므로, 작업 인코더는 사전 학습된 표현과 일치시키기 위해 고유 감각 정보도 수신하여 의미 있는 목표 신호를 생성합니다.

연구진은 작업 인코더를 피드포워드 신경망으로 구현했습니다. 이 신경망의 출력(즉, 작업 토큰)은 BFM 입력 공간의 다른 인코더 토큰들과 연결되어 토큰 "문장"을 형성합니다. 이러한 구조에서 작업 인코더가 출력하는 토큰은 모델이 특정 작업을 완료하도록 안내하는 데 사용되는 특수 "단어"와 같으며, 동시에 동작의 자연스러움을 유지합니다.

훈련

연구진은 태스크 인코더를 새로운 하위 태스크에 맞게 조정하기 위해 근접 정책 최적화(PPO)를 사용했습니다. 훈련 과정에서 BFM은 태스크 토큰을 포함한 입력 토큰들의 조합을 기반으로 행동 확률 분포를 예측합니다. 그런 다음 PPO 목적 함수는 태스크별 보상과 BFM이 출력한 행동 확률을 기반으로 계산되어, BFM 자체는 고정된 상태로 유지하면서 태스크 인코더 매개변수를 업데이트하는 데 사용되는 기울기를 얻습니다.

특정 작업에 맞게 BFM을 효율적이고 효과적으로 적용합니다.

연구진은 일련의 종합적인 실험을 통해 작업 토큰 방식의 효과성을 평가하고, 네 가지 핵심 측면에서 성능과 적용 가능성을 검증했으며, 다음과 같은 여러 경쟁 기준 방식과 비교했습니다.

순수 강화 학습: PPO 학습 전략만 사용하며 어떤 기본 모델에도 의존하지 않습니다.

* MaskedMimic 미세 조정: 보상 신호를 사용하여 전체 MaskedMimic 모델을 최적화합니다(매개변수 고정 없음).

* MaskedMimic (공동 조건 전용): 공동 조건만을 단서 메커니즘으로 사용하는 오리지널 MaskedMimic입니다.

* PULSE: 모션 캡처 데이터에 내재된 기술 공간을 재사용하는 계층적 접근 방식;

* AMP: 판별자를 활용하여 작업 성능을 최적화하는 동시에 작업 품질을 보장합니다.

작업 적응 능력

연구진은 먼저 Task Tokens가 MaskedMimic을 하위 작업에 효과적으로 적용할 수 있음을 입증했으며, 수치 결과는 아래 표에 나와 있습니다. 결과는 다음과 같습니다...Task Tokens는 대부분의 환경에서 높은 점수를 얻었으며, 특히 PULSE, MaskedMimic Fine-Tune, PureRL은 Strike 작업에서 더 높은 점수를 기록했습니다.

또한, 아래 그림은 학습 과정 중 성공률 곡선을 보여줍니다. Task Tokens는 약 5천만(50M) 스텝 만에 수렴하는 반면, PULSE는 동일한 성능을 달성하는 데 약 3억(300M) 스텝이 필요한 것을 확인할 수 있습니다.

위와 같은 결과를 달성하기 위해,태스크 토큰은 약 20만 개(~200K)의 파라미터를 가진 단일 인코더만 학습시키면 됩니다.PULSE와 MaskedMimic Fine-Tune은 각각 930만(9.3M)과 2,500만(25M)개의 파라미터를 필요로 하는데, 이는 기존 방식보다 약 46.5배, 125배 높은 수치입니다. 이러한 효율성은 대규모 모델 학습에 막대한 비용이 소요되는 실제 응용 분야에서 특히 중요합니다.

이러한 결과는 Task Tokens가 MaskedMimic과 같은 행동 기반 모델을 새롭고 이전에 접하지 못한 작업에 효율적이고 효과적으로 적용할 수 있음을 보여줍니다.

분포 외(OOD) 일반화 능력

연구진은 기존 BFM 및 Task Tokens 훈련 과정에서는 발생하지 않았던 분포 이탈(OOD) 교란 조건 하에서 비교 실험을 수행했으며, 주로 중력과 지면 마찰이라는 두 가지 유형의 변화를 고려했습니다.

아래 그림의 결과는 BFM을 활용하면 다음과 같은 결과를 얻을 수 있음을 보여줍니다.태스크 토큰은 새롭고 이전에 보지 못한 시나리오에서 훨씬 향상된 안정성을 보여줍니다.먼저, 기준 조건(교란 없음)에서 Task Tokens는 완벽하게 미세 조정된 MaskedMimic과 거의 동일한 성능을 보이며 다른 모든 기준 방법보다 우수한 성능을 나타냅니다. 이후 교란 강도가 증가함에 따라 Task Tokens의 성능은 기준 방법들을 크게 능가합니다. 특히, Task Tokens는 마찰력이 극히 낮은 조건(예: ×0.4)과 중력이 매우 높은 조건(예: ×1.5)에서도 상당히 높은 성공률을 유지합니다.

인간 대상 연구

아래 표는 각 비교 방법과 비교했을 때 더 "인간적인" 행동으로 선택된 작업 토큰의 비율을 보여줍니다. 결과는 다음과 같은 점을 시사합니다...Task Tokens는 MaskedMimic(JC 전용) 및 MaskedMimic Fine-Tune보다 훨씬 뛰어납니다.이는 사용자가 설계한 조건이 기본 MaskedMimic 모델에 대해 특정 분포 이탈 특성을 가지고 있으며, 작업 토큰이 미세 조정보다 작업 품질에 적응하는 데 더 효과적인 방법임을 나타냅니다.

또한, Task Tokens는 수렴 속도, 매개변수 크기 및 작업 성능 측면에서 우수하지만, PULSE는 "행동의 인간 유사성" 측면에서 더 높은 점수를 기록하는 것을 확인할 수 있습니다.

위의 결과를 바탕으로, 태스크 토큰은 효율성, 액션 품질 및 견고성 사이에서 좋은 균형을 이룬다고 결론지을 수 있습니다.

다중 모드 촉진 효과

마지막으로 연구진은 작업 토큰과 다른 프롬프트 방법의 시너지 효과를 탐구하여 두 방법의 우수한 호환성과 유연성을 입증했습니다.

방향 과제에서 보상 함수는 사람과 유사한 신체 방향을 고려하지 않고 에이전트가 올바른 방향으로 움직이도록만 유도합니다. 따라서 정책은 "뒤로 걷기"로 수렴할 수 있습니다. 이러한 행동은 더 높은 보상과 성공률을 가져오지만, 분명히 의도한 결과는 아닙니다.

아래 이미지는 인위적으로 설계된 사전 정보(예: 머리 목표물의 높이 및 방향에 대한 제약 조건)의 도입을 보여줍니다.훈련 과정은 "똑바로 걷는" 움직임 패턴으로 수렴될 수 있습니다.

공격 과제에서 에이전트는 목표물을 맞춰야 합니다. 흔히 나타나는 행동은 에이전트가 목표물까지 후진한 다음 제자리에서 회전하며 목표물을 타격하는 "회오리바람" 움직임을 수행하는 것입니다. 아래 그림은 앞서 설명한 두 가지 방식을 결합한 것입니다.

먼저, 방향 과제와 유사한 방향 조건을 사용하여 에이전트가 이동하는 동안 항상 목표물을 향하도록 합니다. 그런 다음, 에이전트가 목표물에 가까워지면 "사람이 발차기 동작을 합니다"라는 텍스트 목표가 표시되어 에이전트가 발을 사용하여 발차기 동작을 완료하도록 안내합니다.

특히, 연구진은 전체 모델을 미세 조정하면 잘 알려진 파괴적 망각 문제로 이어져 모델이 다중 모달 단서를 유지하고 융합하는 능력이 약화된다는 점을 관찰했습니다. 반면, Task Tokens는 기본 모델을 고정함으로써 사전 학습된 단서 제공 능력을 유지하여 학습된 행동이 사람이 지정한 행동과 더욱 일관되게 융합될 수 있도록 합니다.

결론

현재 실험은 주로 MaskedMimic 아키텍처를 기반으로 진행되었으며, 향후 연구에서는 보다 광범위한 GC-BFM 아키텍처 내에서 해당 방법의 일반화 가능성을 검증해야 합니다. 작업 관련 보상 및 관찰 설계는 여전히 전문가의 경험에 의존하지만, 향후 연구에서는 진입 장벽을 낮추기 위해 (반)자동화된 설계 방식을 탐구할 수 있습니다. 핵심 방향은 Task Tokens에 적용된 전략을 실제 로봇 시스템에 적용하여 시뮬레이션과 현실 간의 격차를 해소하고, 단순한 애니메이션 시뮬레이션을 넘어 고도의 의사결정이 필요한 복잡한 실제 작업으로 확장하는 것입니다.

마지막으로, 현재의 피드포워드 네트워크 아키텍처를 넘어 더욱 복잡한 태스크 인코더 아키텍처를 탐구하는 것은 성능 향상으로 이어질 수 있습니다. 이러한 문제들을 해결함으로써 태스크 토큰 프레임워크를 더욱 정교하게 다듬고, 더욱 다양하고 적응력 있으며 유능한 휴머노이드 지능형 에이전트 개발을 촉진할 수 있을 것입니다.

참고문헌:
https://openreview.net/forum?id=6T3wJQhvc3
https://arxiv.org/pdf/2503.22886