HyperAIHyperAI

Command Palette

Search for a command to run...

점수에서 역량으로: 금융 대규모 언어 모델 평가를 위한 인지 진단 프레임워크

초록

대규모 언어모델(LLM)은 금융 분야에 응용될 잠재력을 보여주고 있으나, 기존 평가 기준의 한계로 인해 이 고위험 분야에서의 적합성은 여전히 검증되지 않은 상태이다. 기존 평가 기준은 단순히 점수 수준에서 성능을 평가하며, 모델이 실제로 어떤 지식을 보유하고 있으며 어떤 정확한 한계를 지니고 있는지에 대한 세부적인 이해를 가리고 있다. 또한 이러한 평가 기준은 금융 개념의 좁은 하위 집합만을 다루는 데이터셋에 의존하며, 실제 응용에 필수적인 요소들을 간과하고 있다. 이러한 문제를 해결하기 위해 우리는 금융 분야 전용 대규모 언어모델을 평가하기 위한 첫 번째 인지 진단 평가 프레임워크인 FinCDM(Financial Cognitive Diagnosis Model)을 제안한다. FinCDM은 모델의 응답 패턴을 기반으로 각 기술 태그가 부여된 작업들에서 모델이 어떤 금융 기술과 지식을 보유하거나 부족하고 있는지를 지식-기능 수준에서 평가할 수 있도록 한다. 이는 단일 통합 점수에 의존하는 기존 방식과는 달리, 모델의 진정한 이해도와 한계를 보다 정교하게 파악할 수 있게 한다. 또한 우리는 공인회계사(CPA) 시험을 기반으로 한 첫 번째 인지 기반 금융 평가 데이터셋인 CPA-QKA(Certified Public Accountant - Question Knowledge Annotation)를 구축하였다. 이 데이터셋은 실제 회계 및 금융 기술의 포괄적인 범위를 다루며, 분야 전문가들이 질문을 작성하고 검증하며, 높은 상호 평가 일치도와 세부 지식 레이블을 포함하여 철저하게 주석을 달았다. 30개의 사내 모델, 오픈소스 모델, 그리고 도메인 특화 모델을 대상으로 수행한 광범위한 실험 결과, FinCDM는 숨겨진 지식 공백을 드러내며, 기존 평가 기준이 간과해온 세금 및 규제 추론과 같은 미흡하게 평가된 영역을 식별하고, 모델 간의 행동 군집 구조를 발견하는 데 성공하였다. FinCDM는 해석 가능하고 기술 인식이 가능한 진단을 가능하게 함으로써 금융 LLM 평가의 새로운 패러다임을 제시하며, 더 신뢰할 수 있고 타겟화된 모델 개발을 지원한다. 본 연구에서 개발한 모든 데이터셋과 평가 스크립트는 향후 연구를 지원하기 위해 공개될 예정이다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp