Command Palette
Search for a command to run...
Edward Y. Chang Ethan Y. Chang

초록
대규모 언어 모델은 실질적으로 중요한 무해한 편집에도 답변을 변경할 수 있다. RAG 출력은 문장의 순서가 바뀌면 전환되며, 미세조정은 사전학습 단계에서 학습된 불변성(invariance)을 약화시킨다. 토론 또는 사고의 흐름(chain-of-thought) 프롬프트는 경로에 따라 달라지는 방식으로 작동하고, 컴파일러의 융합(fusion)이나 순서 변경은 결정 경계 근처의 로짓(logit)을 왜곡시킨다. 이러한 실패는 의도된 불변성을 위반하고 지속적 통합(continuous integration)을 방해하며, 팀들이 안전성과 속도 사이에서 타협을 강요한다. 이러한 영향은 작지만 계층과 위치에 걸쳐 분포되어 있으며, 컨텍스트 길이와 평가 순서에 민감하며, 재학습이나 형식적 검증을 통해 복구하는 데 비용이 크다.이에 우리는 WILSON을 제안한다. WILSON은 내부 표현에 대한 간단한 루프 및 순서 변경 검사를 시스템 신호로 전환하는 최소한의 후처리 진단 도구이다. WILSON은 JVP(자기-연쇄 미분, Jacobian-Vector Product)와 Hutchison 탐사 기법을 활용해 계층과 위치에 대한 역행렬을 사용하지 않는 곡률 맵(inverse-free curvature map)을 계산하고, 활성화 수준의 교환자(commutator)를 통해 순서 변경 위험을 탐지한다. 이 신호는 계산이 저렴하며, 일반적인 트랜스포머 모델에 대해 모델 독립적(모델에 의존하지 않음)이며, 오케스트레이터(orchestrator)에서 사용 가능한 임계값과 CSV 형식의 아티팩트로 내보낼 수 있다. 이를 통해 구체적인 조치가 가능해진다. 즉, RAG에 대한 순서 효과에 대비할 수 있고, 미세조정의 성능 저하를 조기에 탐지하며, 토론 경로와 긴 다단계 대화 맥락을 안정화할 수 있으며, 배포 시 융합이나 순서 변경을 제어할 수 있다. 요약하자면, WILSON은 실패를 예측하고 안전한 최적화를 승인함으로써, 모델 아키텍처나 학습 방식을 변경하지 않고도 신뢰성과 처리량을 동시에 향상시킬 수 있도록 도와준다.