Deepmoney 튜토리얼 시리즈 1: Yi-34b 학습 기반 금융 빅 모델
튜토리얼 소개
이 튜토리얼은 Deepmoney 프로젝트 매니저인 Xingye Yuanyuan이 2024년에 제작하여 공개했습니다. 실제 금융 분야에서 대중의 지식이 부족한 부분을 보완하기 위해 심층적인 시장 설명과 재무 분석을 제공하는 것을 목표로 합니다. Deepmoney 튜토리얼 시리즈에는 Deepmoney-yi-34b, Deepmoney-miqu-70b, Deepmoney-67b-full의 세 가지 모델이 포함되어 있습니다.이 튜토리얼에서는 Deepmoney-34b-full을 사용합니다.
Deepmoney-34b-full은 Yi-34b-200k를 기반으로 학습되었으며, pt(전체 매개변수 학습)와 sft(lora 미세 조정)의 두 단계로 나뉩니다. 훈련 데이터에는 2019년부터 2023년 12월까지의 데이터를 다루는 고품질 연구 보고서가 포함되어 있으며, 이는 주로 기존 중개 회사와 전문 연구 기관의 데이터입니다.
이 튜토리얼 시리즈의 다른 2개 모델은 여기에서 찾을 수 있습니다.
* 금융 모델 시리즈 튜토리얼 2: Deepmoney-67b-full
* 금융 빅 모델 시리즈 튜토리얼 3: Deepmoney-miqu-70b
1. 연구 배경
오늘날 대부분의 소위 금융 모델은 대중의 지식을 바탕으로 훈련되지만, 실제 금융 분야에서는 이러한 대중의 지식이 현재 시장을 설명하기에 심각하게 부족한 경우가 많습니다. 관심이 있으시다면 케인즈, 프리드먼의 다양한 주장과 현재의 행동금융학에 대해서도 알아보실 수 있습니다. 게다가 시장은 매 순간 변화하고 있으며, 방대한 양의 뉴스와 방대한 데이터가 실시간으로 생성됩니다. 파이프라인을 만드는 데 큰 모델을 사용해 보는 건 어떨까요? 제 계획에서는 이 모델이 이 프로세스의 기본 모델입니다. 제 계획에서는 정보 수집자, 목표 판단자, 정성적 분석가, 정량적 분석가, 데이터 추출자와 같은 모델이 모두 이 프로세스의 일부입니다. 하지만 모델 자체가 다양한 질적, 양적 방법을 숙지하는 것이 의심할 여지 없이 중요합니다. 그래서 이 모델이 탄생했습니다.
2. 데이터에 관하여:
pt: 대중에게 알려진 지식 중 상당수는 타당성에 의문이 있습니다. 하지만 그렇다고 해서 그것이 틀렸다는 것은 아닙니다. 연구 보고서의 많은 연구 방법을 뒷받침하는 이론적 근거 역시 이러한 지식에 의존합니다. 그래서 저는 훈련을 받으면서 대학 교과서와 전문가용 서적을 몇 권 읽었습니다. 양은 많지 않지만 품질은 좋습니다. 또한, 저는 2019년 12월부터 2023년까지의 연구 보고서 데이터를 대량으로 선정했습니다. 이 보고서는 전통적인 중개업체와 연구 기관을 포함한 다양한 출판사에서 발행되었습니다. 대부분은 유료이며 기관에서만 이용할 수 있습니다.
연구 보고서, 특히 고품질의 연구 보고서를 읽어본 적이 있다면, 연구 보고서가 주관적인 판단 + 정량적 분석이며, 정량적 분석의 데이터 지원이 전체 논리적 사슬에 매우 중요하다는 것을 알게 될 것입니다. 이 데이터를 추출하기 위해, 저는 프롬프트의 일부로 연구 보고서의 맥락을 요약하는 파이프라인을 만들었습니다.
마지막으로 데이터를 섞었습니다. 탐욕을 위해 설계되었기 때문에 일반적인 지식 데이터는 포함되지 않습니다. 게다가 업계 연구 보고서에 담긴 지식은 충분히 포괄적입니다.
sft: 먼저, 연구 보고서를 장별로 여러 부분으로 나눕니다. 맥락상, goliath-120b가 연구 보고서의 내용에 대해 질문하도록 하겠습니다(여기에서 더 많은 테스트를 진행할 수 있으며, claude3의 효과가 더 좋습니다). 그런 다음 Nous-Capybara-34B를 사용하여 질문에 답하고 해당 연구 보고서 일부를 작성합니다. 질문자와 답변자를 분리하는 이유는 모델이 "스스로 질문하고 답변"하는 것을 방지하고, 연구 보고서에 따라 답변하지 않고 자체 출력을 포함하는 것을 방지하기 위함입니다. 이를 통해 연구 보고서에 있는 지식과 방법을 추출할 수 있습니다. 또한, gpt4를 사용하여 연구 보고서에서 기초 자산(있는 경우)을 추출하여 주문에 넣었습니다. 제가 구상하는 사용 사례에서는 크롤러가 실시간으로 크롤링하는 목표와 뉴스 소스를 제공하고, 자동으로 질문을 하는 에이전트와 결합하여 모델이 현재 이벤트에 대해 추론할 수 있도록 하고 싶습니다.
3: 훈련에 관하여:
이 모델은 llama-factory 학습 프레임워크를 사용하여 학습되었습니다. 구체적인 사용법은 다음을 참조하세요.hiyouga/LLaMA-Factory: 100개 이상의 LLM에 대한 효율적인 미세 조정 통합(github.com)
이 모델은 pt와 sft의 두 단계를 거칩니다.
4: 모델 평가:
최근 이벤트를 샘플링하고, 실제 이벤트 기반 증권 분석 프로세스를 시뮬레이션하고, deepmoney와 gpt4에 대한 비교 테스트를 실시해 보겠습니다. 사건이 시장에 미치는 영향은 상대적으로 눈에 띄지 않기 때문에 엄격한 백테스팅 과정 없이는 그 효과를 평가하기 어렵습니다. 그리고 우리의 산출물은 다양한 정량적 방법을 사용하여 분석되어야 합니다. 그래서 저는 모든 사람이 제작 결과에 대해 직관적으로 평가할 수 있도록 여기에 결과를 게시했습니다. 저는 글로벌 뉴스 크롤링 시스템을 가지고 있습니다. 항상 많은 뉴스가 있습니다. 저는 제 작업 과정에서 이러한 뉴스에 대한 중복된 내용을 제거하고 주관적이고 객관적인 판단을 내립니다. 이러한 문제는 기존 BERT를 통해 해결될 수 있습니다. 그런 다음 deepmoney의 경우 들어오는 뉴스를 처리하기 위해 세 가지 단계가 사용됩니다. 1. 어떤 산업 부문이나 투자 대상이 위 뉴스의 영향을 받을 수 있습니까? 2. 위 뉴스가 ____ 산업에 미치는 영향을 연구하기 위한 양적 방법을 설계해 주십시오. 그리고 그에 따라 구체적으로 어떤 데이터를 사용해야 하는지 설명하세요. 3. 다음 자료를 토대로, 위 뉴스가 ____ 산업에 미치는 영향을 정량적으로 분석하기 위한 구체적인 정량적 방법을 _____ 설계해 주십시오.
이 중 첫 번째 문제는 주관적 판단으로, 뉴스의 영향 대상을 추출하는 것이다. 이는 모델의 주관적인 분석 능력에 더 많이 의존합니다. 그런 다음 첫 번째 답변에서 산업 이름을 추출합니다(큰 모델에 익숙한 사람이라면 자동화된 프로세스를 설계하기 쉽습니다). 그런 다음 두 번째 질문에 채워서 정량적 분석을 위한 데이터를 얻습니다. 우리가 먼저 양적 방법을 묻고 그 다음에 데이터를 묻는 이유는 COT의 마법 때문입니다. 마지막 질문에 대한 답은 우리에게 정말로 필요한 것입니다. 이 질문의 맥락은 정확하고 구체적인 정량적 방법을 요구할 만큼 충분한 정보를 제공합니다. 코드 작성 모델과 함수 호출 모델을 결합하면 완전한 데이터 사전이 있는 매크로 및 마이크로 데이터베이스가 있는 경우 이것이 완벽하게 가능합니다. 위의 내용은 deepmoney와 gpt4의 3단계 답변입니다. 이 뉴스는 베이징 시간으로 2024년 1월 15일 오전 9시 35분에 보도되었습니다.