HyperAI초신경

아마존 엔지니어 엄선, LLM 논문 40여편 수록

일 년 전
정보
zhaorui
特色图像

2023년에도 여전히 빅언어 모델은 '주제 메이커'로 남아 있다. 오픈AI  대형 제조업체들의 '궁궐 난투극'이든, 새로운 모델과 신제품들 간의 '신들의 싸움'이든, 업계에서 대형 모델들이 폭발적으로 개발되는 모습이든, 이 모든 것은 대규모 언어 모델이 엄청난 발전의 여지를 가지고 있음을 보여줍니다. 꽃 향기는 나비를 끌어들인다. 채팅GPT  하룻밤 사이에 큰 인기를 얻은 뒤, 사회 각계의 거물들이 이 분야에 뛰어든다는 소식을 자주 듣게 되고, 자금력이나 기술적 배경이 다른 신생 기업들이 비가 온 뒤 버섯처럼 솟아오르기도 합니다.

분명, 이처럼 활발한 분위기는 2024년에도 쉽게 식지 않을 것입니다. 점점 더 많은 기업과 전통 산업이 대규모 언어 모델을 자사 사업에 적용하는 방법을 모색하기 시작했습니다. 급속히 확대되는 시장 수요로 인해 관련 분야의 연구가 더욱 심화되고 혁신이 촉진되었으며, arXiv와 같은 플랫폼에서 논문 업데이트가 더욱 빈번해졌습니다.

그 중에서 읽어볼 만한 논문은 무엇인가? 복잡한 에세이 제목 뒤에는 어떤 지식이 담겨 있을까?

귀하가 고가의 서류를 더 빨리 검색할 수 있도록 도와드리기 위해,Amazon 엔지니어인 유진 얀과 다른 사람들은 언어 모델 논문의 독서 목록을 작성하고 최첨단 논문을 계속 공유하고 있습니다. 그들은 현재 40편 이상의 고품질 논문을 편찬했습니다.

수집 링크:

https://eugeneyan.com/writing/llm-reading-list/

공식 계정을 팔로우하고 "LLM 논문"이라고 답글을 달면 논문 모음을 다운로드할 수 있습니다.

변압기 선구적 논문

주의가 당신에게 필요한 전부입니다

*작가:NEAR 공동 창립자 Illia Polosukhin(전 Google AI 팀 멤버) 및 기타

*원래의:https://arxiv.org/abs/1706.03762

주류 시퀀스 변환 모델은 복잡한 순환 신경망이나 합성 신경망의 인코더-디코더 구성을 기반으로 합니다. 고성능 모델은 또한 어텐션 메커니즘을 통해 인코더와 디코더를 연결합니다. 본 연구에서는 완전히 어텐션 메커니즘에 기반을 두고 재귀적이고 합성곱 신경망 구성 과정을 완전히 제거한 새로운 간단한 네트워크 아키텍처인 Transformer를 제안했습니다. 두 가지 기계 번역 작업에 대한 실험 결과, 이러한 모델은 품질이 향상되었고, 병렬화가 더 잘 되며, 학습 시간이 훨씬 적게 걸린다는 것을 보여줍니다.

GPT: 생성적 사전 학습을 통한 언어 이해 향상

생성적 사전 훈련을 통한 언어 이해 향상

*작가:오픈AI

*원래의:https://cdn.openai.com/research-covers/language-무감독/언어 이해 시험지.pdf

자연어 이해는 텍스트 연결, 질의응답, 의미적 유사성 평가 등 광범위한 작업을 포괄합니다. 대규모의 레이블이 지정되지 않은 텍스트 코퍼스를 사용할 수 있는 반면, 이러한 특정 작업을 학습하는 데 필요한 레이블이 지정된 데이터는 제한적이어서 차별적으로 학습된 모델이 적절한 성능을 발휘하기 어렵습니다. 이에 대한 대응으로, Ilya는 OpenAI 연구진에게 레이블이 지정되지 않은 풍부한 텍스트 코퍼스에서 언어 모델을 사전 학습하고 각 특정 작업에 대해 차등적 미세 조정을 수행하면 이러한 현상을 개선할 수 있다고 제안했습니다. 연구자들은 미세 조정 과정에서 작업 인식 입력 변환을 사용했는데, 이를 통해 모델 아키텍처에 대한 조정이 덜 필요하면서도 효과적인 전이 학습을 달성할 수 있었습니다.

일반 작업에 대한 비교 실험 결과는 이 모델이 상식적 추론(Stories Cloze Test)에서 8.9%, 질문 답변(RACE)에서 5.7%, 텍스트 연관(MultiNLI)에서 1.5%의 성능 향상을 달성한 것으로 나타났습니다.

BERT: 언어 이해를 위한 심층 양방향 변환기 사전 학습

BERT: 언어 이해를 위한 딥 양방향 변환기의 사전 학습

*작가:구글 딥마인드

*원래의:https://arxiv.org/abs/1810.04805

연구진은 모든 계층의 맥락을 고려하여 심층적인 양방향 표현을 사전 학습시키는 새로운 언어 표현 모델인 BERT(Bidirectional Encoder Representations from Transformers)를 제안했습니다. 결과적으로 사전 학습된 BERT 모델은 출력 계층을 추가하기만 하면 미세 조정이 가능하여 광범위한 작업별 아키텍처 수정 없이도 질문 답변 및 언어 추론과 같은 여러 작업에 대한 최첨단 모델을 만들 수 있습니다.

BERT는 11가지 자연어 처리 작업에서 상당한 개선을 이루었습니다. 여기에는 GLUE 점수가 80.5%(상대적 개선 7.7%), MultiNLI 정확도가 86.7%(상대적 개선 4.6%), SQuAD v1.1 질문 답변 테스트 F1이 93.2(상대적 개선 1.5%), SQuAD v2.0 테스트 F1이 83.1(상대적 개선 5.1%)로 증가하는 것이 포함됩니다.

T5: 통합 텍스트-텍스트 변환기를 사용한 전이 학습의 한계 탐색

통합 텍스트-텍스트 변환기를 사용하여 전이 학습의 한계 탐색

*작가:구글 딥마인드

*원래의:https://arxiv.org/abs/1910.10683

연구진은 모든 텍스트 기반 언어 문제를 텍스트-텍스트 형식으로 변환하는 통합 프레임워크를 도입하여 NLP를 위한 전이 학습 기술을 더욱 탐구했습니다. 이 연구에서는 수십 가지 언어 이해 과제에 걸쳐 사전 훈련 목표, 아키텍처, 레이블이 없는 데이터 세트, 전이 방법 및 기타 요소를 비교했습니다. 이 연구에서는 팀의 새롭게 제안된 거대하고 깨끗한 크롤링 코퍼스(Colossal Clean Crawled Corpus)와 비교 및 실험 결과를 결합하여 요약, 질의응답, 텍스트 분류 등 여러 벤치마크에서 최첨단 결과를 얻었습니다.

GPT2: 언어 모델은 비지도 다중 작업 학습기입니다.

언어 모델은 비지도 멀티태스킹 학습기입니다.

*작가:오픈AI

*원래의:https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

이 연구는 언어 모델이 수백만 개의 웹 페이지로 구성된 새로운 데이터 세트인 WebText를 사용하여 학습할 경우 명시적인 지도 없이도 자연어 처리 작업을 학습할 수 있음을 보여줍니다. 문서 + 질문 조건이 주어지면 언어 모델에서 생성된 답변은 다음과 같습니다. 코큐에이  데이터 세트에서 F1 점수 55를 달성하여 127,000개 이상의 교육 예제를 필요로 하지 않으면서도 기준 시스템 4개 중 3개와 일치하거나 이를 초과했습니다. GPT-2는 15억 개의 매개변수를 가진 변압기입니다. 제로샷 설정에서는 테스트된 8개의 언어 모델링 데이터 세트 중 7개에서 가장 좋은 성능을 달성했지만, 아직 WebText에 완벽하게 적용되지는 않았습니다.

GPT-3: 언어 모델은 소수의 학습자입니다.

언어 모델은 몇 번의 학습으로 완성됩니다.

*작가:Anthropic 창립자 Dario Amodei, OpenAI 공동 창립자 Ilya Sutskever 등

*원래의:https://arxiv.org/abs/2005.14165

연구진은 자기회귀 언어 모델인 GPT-3를 훈련시키고, 몇 가지 시나리오에서 그 성능을 테스트했습니다. 모든 작업에서 GPT-3는 그래디언트 업데이트나 미세 조정을 수행하지 않으며, 작업과 몇 가지 데모는 모델과의 텍스트 상호 작용을 통해서만 달성됩니다. GPT-3는 번역, 질의응답을 비롯하여 즉석 추론이나 도메인 적응이 필요한 일부 작업(예: 단어 조합, 문장에서 새 단어 사용, 3자리 산술 연산)을 포함한 대부분의 NLP 데이터 세트에서 우수한 성능을 달성합니다. 연구진은 또한 GPT-3가 인간이 구별하기 어려운 뉴스 기사를 생성할 수 있다는 사실을 발견했습니다.

신경 언어 모델을 위한 스케일링 법칙: 더 작은 데이터 세트에서 더 큰 모델 학습

신경 언어 모델을 위한 스케일링 법칙


*작가:
Anthropic 창립자 Dario Amodei와 OpenAI 연구원

*원래의:https://arxiv.org/abs/2001.08361

연구자들은 교차 엔트로피 손실에 대한 언어 모델 성능의 확장을 연구했습니다. 손실 규모는 모델 크기, 데이터 세트 크기, 학습에 사용된 컴퓨팅 양에 따라 거듭제곱 법칙에 따라 결정되며, 일부 규모 추세는 7개의 규모를 초과합니다. 과잉적합이 모델/데이터세트 크기에 따라 달라지는 것과, 학습 속도가 모델 크기에 따라 달라지는 것은 모두 간단한 방정식에 의해 결정됩니다. 이를 바탕으로 연구진은 모델이 클수록 표본 효율성이 높아지므로 최적의 계산 효율성을 위한 학습에는 비교적 적은 양의 데이터로 더 큰 모델을 학습시키고 수렴하기 전에 공격적으로 학습을 중단해야 한다고 제안합니다.

Chinchilla: 최적의 계산 효율성을 갖춘 대규모 언어 모델 학습

컴퓨팅 최적 대규모 언어 모델 학습

*작가:구글 딥마인드

*원래의:https://arxiv.org/abs/2203.15556

연구자들은 모델 크기와 훈련 토큰의 수는 비례적으로 증가해야 한다고 제안했으며, 예측된 계산 효율성 모델인 친칠라를 훈련하여 이 가설을 검증했습니다. 친칠라는 고퍼와 동일한 컴퓨팅 성능을 사용하지만 매개변수 크기는 70억 개, 데이터 양은 4배 더 많습니다. Chinchilla는 다양한 하위 평가 작업에서 Gopher(280B), GPT-3(175B), Jurassic-1(178B), Megatron-Turing NLG(530B)보다 훨씬 우수한 성능을 보였습니다. 이는 또한 Chinchilla가 미세 조정 및 추론 중에 컴퓨팅 리소스를 상당히 적게 사용하여 다운스트림 애플리케이션을 크게 용이하게 한다는 것을 의미합니다.

LLaMA: 개방적이고 효율적인 기본 언어 모델

LLaMA: 개방적이고 효율적인 기초 언어 모델

*작가:Mistral AI 공동 창립자 Guillaume Lample(이전 Meta AI 근무) 및 기타

*원래의:https://arxiv.org/abs/2302.13971

LLaMA는 7B에서 65B까지의 매개변수를 갖는 기본 언어 모델 모음입니다. 메타 AI 연구진은 공개적으로 이용 가능한 데이터 세트만을 사용하고, 독점적이고 접근이 불가능한 데이터 세트는 사용하지 않고 수조 개의 토큰을 사용하여 모델을 훈련했습니다. LLaMA-13B는 대부분의 벤치마크에서 GPT-3(175B)보다 성능이 뛰어나고, LLaMA-65B는 Chinchilla-70B 및 PaLM-540B와 비슷합니다.

InstructGPT: 인간 피드백을 통해 언어 모델이 지침을 따르도록 훈련

인간의 피드백을 통해 지시를 따르도록 언어 모델을 훈련합니다.

*작가:오픈AI

*원래의:https://arxiv.org/abs/2203.02155

연구자들은 다양한 작업에 대한 인간의 피드백을 통해 언어 모델을 미세하게 조정하여 사용자 의도에 맞게 조정할 수 있음을 보여주었습니다. 연구자들은 그 결과로 나온 모델을 InstructGPT라고 명명했고, 신속한 분포에 대한 평가에서 1.3B InstructGPT 모델의 출력이 175B GPT-3 모델의 출력보다 더 나은 것으로 나타났습니다. 또한, InstructGPT는 현실성 측면에서도 개선되었고 독성 출력도 감소했습니다.

로라: 대규모 언어 모델의 저순위 적응

LoRA: 대규모 언어 모델의 저순위 적응

*작가:마이크로소프트

*원래의:https://arxiv.org/abs/2106.09685

Microsoft 연구원들은 사전 훈련된 모델의 가중치를 동결하고 훈련 가능한 순위 분해 행렬을 Transformer 아키텍처의 각 계층에 주입하여 다운스트림 작업에 대한 훈련 가능한 매개변수 수를 크게 줄이는 LoRA(Low-Rank Adaptation)를 제안했습니다. Adam으로 미세 조정된 GPT-3 175B와 비교했을 때, LoRA는 학습 가능한 매개변수 수를 10,000배까지 줄이고 GPU 메모리 요구 사항을 3배까지 줄일 수 있습니다.

QLoRA: 양자화된 대규모 언어 모델의 효율적인 미세 조정

QLoRA: 양자화된 LLM의 효율적인 미세 조정

*작가:워싱턴 대학의 연구원들

*원래의:https://arxiv.org/abs/2305.14314

QLoRA는 메모리 사용량을 줄이고 단일 48GB GPU에서 65B 매개변수 모델을 미세 조정할 수 있는 효율적인 미세 조정 방법으로, 16비트 미세 조정 작업 성능을 모두 유지합니다. QLoRA는 동결된 4비트 양자화 사전 학습된 언어 모델을 통해 LoRA에 경사를 역전파합니다. 연구진은 QLoRA Guanaco를 기반으로 최고 성능의 모델을 선정했는데, 이 모델은 Vicuna 벤치마크에서 이전에 공개적으로 출시된 모든 모델보다 우수한 성능을 보였으며, 단일 GPU에서 미세 조정에 24시간만 필요하면서도 ChatGPT 99.3%의 성능 수준에 도달했습니다.

DPR: 개방형 도메인 질의응답을 위한 고밀도 구절 검색

개방형 도메인 질의응답을 위한 고밀도 구절 검색

*작가:메타의 FAIR

*원래의:https://arxiv.org/abs/2004.04906

이 연구에서 연구자들은 단순한 듀얼 인코더 프레임워크를 통해 소수의 질문과 문단에서 임베딩을 학습하는 방식으로, 밀집 표현만을 사용하여 검색을 달성하는 방법을 보여주었습니다. 광범위한 오픈 도메인 질의응답 데이터세트에서 평가했을 때, 검색기는 상위 20개 문단 검색 정확도에서 Lucene-BM25보다 9%-19%의 향상을 달성했습니다.

RAG: 지식 집약적 NLP 작업을 위한 검색 증강 생성

지식 집약적 NLP 작업을 위한 검색 증강 생성

*작가:Meta, UCL 및 University College London의 연구원

*원래의:https://arxiv.org/abs/2005.11401

연구자들은 언어 생성을 위해 사전 훈련된 매개변수와 비매개변수를 결합하는 일반적인 미세 조정 방법인 RAG(검색 증강 생성)를 제안했습니다. 본 연구에서는 RAG 모델을 소개합니다. 여기서 매개변수 메모리는 사전 훈련된 seq2seq 모델이고 비모수 메모리는 사전 훈련된 신경망 검색기를 통해 접근할 수 있는 위키피디아의 밀집 벡터 인덱스(DPR)입니다. 연구자들은 두 가지 RAG 방식을 비교했습니다. 하나는 생성된 시퀀스 전체에서 검색된 동일한 문단을 조건으로 하고, 다른 하나는 각 토큰에 대해 다른 문단을 조건으로 했습니다. 언어 생성 작업에서 연구자들은 RAG 모델이 생성한 언어가 최첨단 순수 매개변수적 seq2seq 베이스라인 모델이 생성한 언어보다 더 구체적이고, 다양하며, 현실적이라는 것을 발견했습니다.

RETRO: 수조 개의 토큰을 검색하여 언어 모델 성능 개선

수조 개의 토큰을 검색하여 언어 모델 개선

*작가:구글 딥마인드

*원래의:https://arxiv.org/abs/2112.04426

2조 개의 레이블이 지정된 데이터베이스를 갖춘 RETRO(Retrieval-Enhanced Transformer)는 GPT-3 및 Jurassic-1보다 25배 적은 매개변수를 사용함에도 불구하고 Pile에서 비슷한 성능을 달성합니다. RETRO는 동결된 BERT 검색기, 미분 가능한 인코더, 블록별 교차 주의 메커니즘을 결합하여 학습 중 소모된 데이터보다 훨씬 많은 데이터를 기반으로 태그를 예측합니다.

오픈 도메인 질의응답을 위한 몇 가지 힌트를 사용하여 인터넷 강화 언어 모델 구축

오픈 도메인 질의응답을 위한 소수 샷 프롬프팅을 통한 인터넷 증강 언어 모델

*작가:구글 딥마인드

*원래의:https://arxiv.org/abs/2203.05115

이 연구의 목적은 대규모 언어 모델(LSLM)의 고유한 짧은 프롬프트 기능을 활용하여 사실에 기반하고 최신 상태를 유지하는 데 있어 직면하는 과제를 극복하는 것입니다. 연구자들은 네트워크 기반 언어 모델이 개방형 도메인 질의응답에서 비슷하거나 더 큰 규모의 폐쇄형 도서 모델보다 더 나은 성과를 보인다는 것을 발견했습니다. 또한, 여러 검색 증거를 사용하여 여러 답변을 생성한 후 동일한 LM에서 생성된 점수를 사용하여 다시 순위를 매기면 모델의 추론 계산 시간을 개선할 수 있으며, 이를 통해 성능을 향상시키고 소수의 LM의 성능이 낮은 문제를 완화할 수 있습니다.

HyDE: 관련성 레이블이 없는 제로샷 고밀도 검색

관련성 레이블 없이 정확한 제로샷 고밀도 검색


*작가:
카네기 멜론 대학교와 워털루 대학교의 연구원들은

*원래의:https://arxiv.org/abs/2212.10496

이 실험에서 HyDE(가상 문서 임베딩)는 먼저 명령어를 따르는 언어 모델(예: InstructGPT)을 안내하여 제로샷 방식으로 가상 문서를 생성합니다. 이 문서는 상관관계 패턴을 포착하고 있지만 허구이며 거짓된 세부 정보를 담고 있을 수 있습니다. 그런 다음, 비지도 대조 학습을 갖춘 인코더(예: Contriever)가 문서를 임베딩 벡터로 인코딩합니다. 이 벡터는 벡터 유사성을 기반으로 유사한 실제 문서가 검색되는 코퍼스 임베딩 공간의 이웃을 식별합니다. 실험 결과, HyDE는 다양한 작업과 언어에서 최첨단 비지도 고밀도 리트리버인 Contriever보다 상당히 우수한 성능을 보이며, 미세 조정된 리트리버와 비교할 만큼 강력한 성능을 보입니다.

FlashAttention: IO 인식을 통한 정확한 주의 알고리즘

FlashAttention: IO 인식을 통한 빠르고 메모리 효율적인 정확한 어텐션

*작가:스탠포드 대학과 뉴욕 주립 대학의 연구원들은

*원래의:https://arxiv.org/abs/2205.14135

FlashAttention은 타일링을 사용하여 GPU 고대역폭 메모리(HBM)와 GPU 온칩 SRAM 간의 메모리 읽기 및 쓰기 횟수를 줄이는 IO 인식 정밀 어텐션 알고리즘입니다. FlashAttention과 Block-Sparse FlashAttention은 Transformers에서 더 긴 컨텍스트를 지원하여 더 높은 품질의 모델과 혁신적인 기능을 제공합니다.

입력 길이 외삽을 달성하기 위한 주의 선형 편향

짧은 훈련, 긴 테스트: 선형 편향을 통한 주의로 입력 길이 외삽 가능

*작가:워싱턴 대학, FAIR 등의 연구팀

*원래의:https://arxiv.org/abs/2108.12409

연구진은 더 간단하고 효율적인 위치 표현 방법인 ALiBi(선형 편향을 이용한 주의)를 제안했습니다. 이 방법은 길이가 1024인 입력 시퀀스에서 13억 개의 매개변수 모델을 학습하고 길이가 2048인 입력 시퀀스를 추론할 수 있습니다. 길이가 2048인 입력 시퀀스에서 학습된 사인파 위치 임베딩 모델과 동일한 성능을 달성했지만, 학습 속도가 11% 더 빠르고 메모리 사용량도 11% 더 적습니다.

Codex: 코드로 학습된 대규모 언어 모델 평가

코드로 학습된 대규모 언어 모델 평가

*작가:오픈AI

*원래의:https://arxiv.org/abs/2107.03374

연구진은 GitHub 공개 코드를 기반으로 미세 조정된 GPT 언어 모델 Codex를 소개하고 Python 코드 작성 기능을 연구했습니다. 동시에 연구진은 문서 스크립트에서 합성된 프로그램의 기능적 정확성을 측정하는 데 사용되는 새로운 평가 세트 HumanEval도 출시했습니다. 이 평가 세트에서 Codex는 28.8% 문제를 풀었고, GPT-3는 0%를 풀었으며 GPT-J는 11.4%를 풀었습니다.

레이어 정규화

레이어 정규화

*작가:토론토 대학의 연구원들

*원래의:https://arxiv.org/abs/1607.06450

연구자들은 배치 정규화를 계층 정규화로 전환했습니다. 즉, 단일 학습 샘플에서 계층의 모든 뉴런 입력 합의 평균과 분산을 계산하여 정규화를 달성합니다. 배치 정규화와 달리 레이어 정규화는 학습 및 테스트 시점에 정확히 동일한 계산을 수행합니다. 우리는 경험적으로 레이어 정규화가 이전에 발표된 기술에 비해 학습 시간을 크게 줄일 수 있음을 보여줍니다.

Transformer 아키텍처의 레이어 정규화

Transformer 아키텍처의 레이어 정규화에 관하여


*작가:
마이크로소프트

*원래의:https://arxiv.org/abs/2002.04745

연구진은 평균장 이론을 사용하여 초기화 단계에서 원래 설계된 Post-LN Transformer의 경우 출력 계층 근처의 매개변수에 대한 예상 기울기가 크고, 이를 기반으로 높은 학습률을 사용하면 학습이 불안정해진다는 것을 증명했습니다. 또한, Post-LN Transformer에 레이어 정규화를 적용하면 초기화 시 그래디언트가 정상적으로 동작합니다. 연구에 따르면 워밍업 단계를 제거한 Pre-LN Transforme는 실제 적용에서 기준선과 비슷한 결과를 얻을 수 있으며, 동시에 학습 시간과 하이퍼파라미터 튜닝도 줄일 수 있는 것으로 나타났습니다.

PPO: 근접 정책 최적화 알고리즘

근접 정책 최적화 알고리즘

*작가:오픈AI

*원래의:https://arxiv.org/abs/1707.06347

연구자들이 제안한 PPO(근접 정책 최적화)는 TRPO(녹 지역 정책 최적화)와 비슷한 장점을 가지고 있지만, 더 간단하고, 더 일반적이며, 표본 복잡도가 더 좋습니다. 연구자들은 다양한 벤치마크 작업에서 PPO를 테스트한 결과, PPO가 다른 온라인 정책 그래디언트 방법보다 성능이 뛰어나고 일반적으로 샘플 복잡성, 단순성 및 실제 시간 간에 좋은 균형을 이룬다는 것을 보여주었습니다.

위저드코더: Evol-Instruct를 사용하여 대규모 언어 모델의 코드 작성 능력 향상

WizardCoder: Evol-Instruct를 사용하여 대규모 언어 모델 코드 강화

*작가:Microsoft와 홍콩 침례대학교의 연구원들은

*원래의:https://arxiv.org/abs/2306.08568

연구자들이 제안한 WizardCoder는 Code LLM이 Evol-Instruct 방법을 코드 도메인에 맞게 조정하여 복잡한 명령어를 미세 조정할 수 있는 기능을 제공합니다. HumanEval, HumanEval+, MBPP, DS-1000의 4가지 코드 생성 벤치마크에 대한 실험은 WizardCoder가 다른 모든 오픈 소스 코드 LLM보다 훨씬 우수한 성능을 보인다는 것을 보여줍니다. 게다가 HumanEval과 HumanEval+에서는 WizardCoder가 Anthropic의 Claude와 Google의 Bard보다 더 뛰어납니다.

라마 2: 오픈 소스 및 미세 조정된 채팅 모델

라마 2: 오픈 파운데이션과 미세 조정된 채팅 모델

*작가:GenAI, 메타

*원래의:https://arxiv.org/abs/2307.09288

Llama 2는 70억에서 700억 개에 달하는 매개변수를 가진 대규모 사전 학습 및 미세 조정된 언어 모델 컬렉션입니다. 연구자들이 미세하게 조정한 LLM인 Llama 2-Chat은 대화형 애플리케이션에 최적화되어 있습니다. 이 논문에서는 연구자들이 Llama 2-Chat의 보안을 어떻게 미세 조정하고 개선했는지 자세히 설명합니다.

RWKV: 트랜스포머 시대를 위한 RNN 재정의

RWKV: 트랜스포머 시대를 위한 RNN 재창조

*작가:EleutherAI, 바르셀로나 대학교 및 기타 연구팀

*원래의:https://arxiv.org/abs/2305.13048

연구진은 Transformer의 효율적인 병렬 학습과 RNN의 효율적인 추론을 결합한 Receptance Weighted Key Value(RWKV)라는 새로운 모델 아키텍처를 제안했습니다. 이 방법은 선형 어텐션 메커니즘을 활용하고 모델을 변환기나 RNN으로 공식화하여 학습 중에 계산을 병렬화하고 추론 중에 계산 및 메모리 복잡도를 일정하게 유지할 수 있습니다. 연구진은 이 모델의 매개변수를 140억 개로 확장하여 지금까지 가장 큰 고밀도 RNN 모델을 만들었습니다.

RLAIF: 무해한 AI 피드백

헌법적 AI: AI 피드백의 무해성

*작가:인류학적

*원래의:https://arxiv.org/abs/2212.08073

연구자들은 자기개선을 통해 AI 조수를 훈련시키려고 노력하고 있는데, 이 접근 방식을 그들은 헌법적 AI라고 부릅니다. 학습 과정은 지도 학습과 강화 학습의 두 단계로 구성됩니다. 지도 학습 단계에서 연구자들은 초기 모델에서 표본을 추출한 다음, 자체 비판과 수정 작업을 거쳐 마지막으로 수정된 응답에 따라 원래 모델을 미세 조정했습니다.

강화 학습 단계에서 연구자들은 미세 조정된 모델에서 샘플을 추출하고, 모델을 사용하여 두 샘플 중 어느 것이 더 나은지 평가한 다음, AI가 선호하는 데이터 세트에서 선호도 모델을 훈련합니다. 그런 다음 연구자들은 AI 피드백(RLAIF)의 RL을 사용하여 선호도 모델을 RL 훈련에 대한 보상 신호로 사용했습니다.

매우 대규모 신경망

엄청나게 큰 신경망: 희소 게이트 혼합 전문가 계층

*작가:구글 브레인(딥마인드와 합병)

*원래의:https://arxiv.org/abs/1701.06538

연구진은 최대 수천 개의 피드포워드 하위 네트워크로 구성된 희소 게이트형 MoE(전문가 혼합)를 도입하고 MoE를 언어 모델링 및 기계 번역 작업에 적용했습니다. 이러한 작업에서는 훈련 자료에 있는 방대한 양의 지식을 동화하기 위해 모델 용량이 매우 중요합니다. 연구진은 최대 1,370억 개의 매개변수를 갖는 MoE가 쌓인 LSTM 층 사이에서 합성곱적으로 적용되는 모델 아키텍처를 제안했습니다. 대규모 언어 모델링과 기계 번역 벤치마크에서 이 모델은 더 낮은 계산 비용으로 최신 기술보다 훨씬 뛰어난 성능을 발휘합니다.

CLIP: 자연어 감독을 통해 학습 가능한 비전 모델 학습

자연어 감독을 통한 전이 가능한 시각 모델 학습


*작가:
오픈AI

*원래의:https://arxiv.org/abs/2103.00020

우리는 최첨단 이미지 표현을 처음부터 학습하는 효율적이고 확장 가능한 방법으로, 어떤 캡션이 어떤 이미지에 속하는지 예측하는 사전 학습 작업을 제안합니다. 이 연구에서는 인터넷에서 수집한 4억 쌍의 이미지와 텍스트 데이터 세트를 사용했습니다. 사전 학습 후 자연어를 사용하여 학습된 시각적 개념을 참조하거나 새로운 개념을 설명하여 모델을 다운스트림 작업으로 즉시 전송할 수 있습니다.

ViT: 대규모 이미지 인식을 위한 변환기

이미지는 16×16 단어의 가치가 있습니다: 대규모 이미지 인식을 위한 변환기

*작가:구글 리서치, 브레인팀(딥마인드와 합병)

*원래의:https://arxiv.org/abs/2010.11929

합성곱 연산을 적용하면 일반적으로 전역 구조와 장거리 종속성의 한계가 따르므로 이러한 문제를 해결하려면 더 많은 매개변수와 더 깊은 네트워크가 필요합니다. 연구진은 트랜스포머의 핵심 아이디어를 채택하고 글로벌 정보를 포착할 수 있는 ViT(Vision Transformer)라는 전적으로 트랜스포머 기반 이미지 인식 모델을 제안했습니다.

생성 에이전트: 인간 행동의 상호 작용 시뮬레이션

생성 에이전트: 인간 행동의 상호작용적 시뮬라크라

*작가:스탠포드 대학교, 구글 딥마인드 연구원들

*원래의:https://arxiv.org/abs/2304.03442

생성 에이전트를 구축하기 위해 연구진은 자연어를 사용하여 에이전트의 경험에 대한 완전한 기록을 저장하기 위해 대규모 언어 모델을 확장하고, 이러한 기억을 점진적으로 고차원적 반영으로 합성하고, 동적으로 검색하여 행동을 계획하는 아키텍처를 제안했습니다. 본 연구에서는 대규모 언어 모델을 컴퓨팅 및 대화형 에이전트와 통합하여 아키텍처와 상호 작용 패턴을 도입하고, 신뢰할 수 있는 인간 행동의 시뮬레이션을 달성했습니다.

DPO: 직접 선호도 최적화 알고리즘

직접 선호도 최적화: 언어 모델은 비밀리에 보상 모델입니다

*작가:스탠포드 대학교 연구원들

*원래의:https://arxiv.org/abs/2305.18290

연구자들이 제안한 직접 선호 최적화(DPO) 알고리즘은 보상 모델을 맞추거나, 미세 조정 중 LM에서 샘플링하거나, 상당한 하이퍼파라미터 조정을 수행할 필요가 없어 안정적이고 효율적이며 계산적으로 가볍습니다. 실험 결과, DPO는 LM을 미세하게 조정하여 인간의 선호도에 맞게 만들 수 있는 것으로 나타났습니다. 실험 결과, DPO를 이용한 미세 조정은 생성된 감정을 제어하는 데 있어 RLHF(인간의 피드백을 통한 강화 학습)보다 성능이 더 뛰어난 것으로 나타났습니다.

일관성 모델

일관성 모델

*작가:오픈AI

*원래의:https://arxiv.org/abs/2303.01469

본 연구에서 제안하는 일관성 모델은 노이즈를 데이터에 직접 매핑하여 고품질 샘플을 생성하는 새로운 모델입니다. 빠른 단일 단계 생성을 지원하고, 다단계 샘플링을 사용하여 계산과 샘플 품질의 균형을 맞출 수도 있습니다. 이 모델은 이러한 작업에 대한 명시적인 교육이 필요 없이 이미지 인페인팅, 컬러링, 초고해상도화와 같은 제로샷 데이터 편집을 가능하게 합니다.

잠재적 일관성 모델

잠재 일관성 모델: 몇 단계 추론을 통한 고해상도 이미지 합성

*작가:칭화대학교 연구원들

*원래의:https://arxiv.org/abs/2310.04378

연구자들은 안정 확산(Rombach et al.)을 포함하여 사전 훈련된 잠재 확산 모델(LDM)에 대해 가장 적은 단계로 빠른 추론을 수행할 수 있는 잠재 일관성 모델(LCM)을 제안했습니다. 실험 결과에 따르면 사전 학습된 분류기 없는 가이드 확산 모델에서 효율적으로 추출한 고품질 768 x 768 2~4단계 LCM은 A100 GPU에서 32시간의 학습만으로 가능합니다.

LCM-LoRA: 범용 안정 확산 가속 모듈

LCM-LoRA: 범용 안정 확산 가속 모듈

*작가:칭화대학교, 허깅 페이스

*원래의:https://arxiv.org/abs/2311.05556

이 연구는 LCM의 잠재력을 더욱 확장합니다. 먼저, 연구진은 SD-V1.5, SSD-1B, SDXL 등의 안정 확산 모델에 LoRA를 적용하여 메모리 소모가 적은 대규모 모델로 LCM의 적용 범위를 확장하고, 뛰어난 이미지 생성 품질을 달성했습니다. 둘째, 연구진은 LCM 증류를 통해 얻은 LoRA 매개변수를 일반적인 안정 확산 가속 모듈로 식별하고 이를 LCM-LoRA라고 명명했습니다. LCM-LoRA는 별도의 학습 없이도 다양한 안정 확산 미세 조정 모델이나 LoRA에 직접 연결할 수 있어 다양한 이미지 생성 작업을 위한 일반적인 가속기로 활용할 수 있습니다.

Chain-of-Note: 검색 강화 언어 모델의 견고성 개선

참고 사항 체인: 검색 증강 언어 모델의 견고성 향상

*작가:텐센트 AI 랩

*원래의:https://arxiv.org/abs/2311.09210

연구자들이 제안한 Chain-of-Noting(CoN)은 노이즈가 많고 관련성이 없는 문서에 직면했을 때와 알려지지 않은 시나리오를 처리할 때 검색 향상 언어 모델(RALM)의 견고성을 향상시킬 수 있습니다. CoN은 검색된 문서에 대한 순차적 읽기 주석을 생성하여 주어진 질문과의 관련성을 철저히 평가하고 이 정보를 최종 답변을 공식화하는 과정에 통합할 수 있습니다.

대규모 언어 모델의 새로운 기능

대규모 언어 모델의 새로운 능력

*작가:구글 리서치, 스탠포드 대학교, UNC, 딥마인드

*원래의:https://arxiv.org/abs/2206.07682

연구자들은 대규모 언어 모델의 새로운 역량을 제안했으며, 이를 작은 모델에는 없지만 대규모 모델에는 존재하는 역량으로 정의했습니다. 이는 훈련 계산량과 모델 매개변수 수로 측정했습니다.

Q-Transformer: 자기회귀 Q 함수를 통한 확장 가능한 오프라인 강화 학습

Q-Transformer: 자기회귀 Q 함수를 통한 확장 가능한 오프라인 강화 학습

*작가:구글 딥마인드

*원래의:https://arxiv.org/abs/2309.10150

연구진은 인간의 시연과 대규모 오프라인 데이터 세트에서 자율적으로 수집된 데이터를 모두 활용할 수 있는 멀티태스크 정책을 훈련하기 위한 확장 가능한 강화 학습 방법인 Q-Transformer를 제안했습니다. 이 방법은 Q 함수의 확장 가능한 표현을 제공하기 위해 Transformer를 사용하고 오프라인 시간 차이 백업을 통해 학습합니다.

라마 가드

라마 가드: 인간-AI 대화를 위한 LLM 기반 입출력 보호 장치

*작가:메타젠AI

*원래의:https://arxiv.org/abs/2312.06674

Llama Guard는 Meta에서 수집한 데이터 세트의 Llama2-7b 모델을 기반으로 미세 조정된 LLM 기반 입력 및 출력 보호 모델입니다. 데이터 양이 적음에도 불구하고 OpenAI Moderation Evaluation 데이터 세트와 ToxicChat 등 기존 벤치마크에서 좋은 성능을 보이며, 현재 사용 가능한 콘텐츠 검토 도구와 동등하거나 더 나은 성능을 보입니다.

ReSTEM: 인간 데이터를 넘어서

인간 데이터를 넘어서: 언어 모델을 활용한 문제 해결을 위한 자체 학습 확장

*작가:구글 딥마인드, 밀라

*원래의:https://arxiv.org/abs/2312.06585

연구자들은 ReSTEM이라는 기대 극대화 기반 자가 학습 방법을 제안했습니다. 이는 모델에서 샘플을 생성하고 이진 피드백을 사용하여 필터링한 다음 이러한 샘플을 미세 조정하고 프로세스를 여러 번 반복하는 방식입니다. 연구진은 MATH 추론 및 APPS 인코딩 벤치마크에서 PaLM-2 모델을 사용했을 때 ReSTEM의 성능이 모델 크기에 따라 확장되고 인간 데이터에 대한 미세 조정 방법보다 상당히 우수한 성능을 보인다는 것을 발견했습니다.

혼합 전문가 모델

*원천:껴안는 얼굴

*원래의:https://huggingface.co/blog/moe

SPIN: 자체 게임 미세 조정을 통해 약한 언어 모델을 강력한 언어 모델로 변환

셀프 플레이 미세 조정은 약한 언어 모델을 강한 언어 모델로 변환합니다.

*작가:UCLA, Tsinghua University 및 University of California의 연구원들은

*원래의:https://arxiv.org/abs/2401.01335

연구진은 셀프 플레이 미세 조정(SPIN)이라는 새로운 미세 조정 방법을 제안했는데, 이 방법의 핵심은 셀프 플레이 메커니즘입니다. 언어 모델은 이전 반복에서 훈련 데이터를 생성하고, 인간이 주석을 단 데이터에서 얻은 응답과 스스로 생성한 응답을 구별하여 전략을 추가로 조정합니다.

자체 교육: 자동 생성된 교육 언어에 맞춰 언어 모델 정렬

자체 지시: 자체 생성 지침에 맞춰 언어 모델 정렬

*작가:워싱턴대학교 등

*원래의:https://arxiv.org/abs/2212.10560

연구자들이 제안한 Self-Instruct는 사전 훈련된 언어 모델이 생성한 콘텐츠를 활용하여 지시를 따르는 능력을 향상시킬 수 있습니다. 연구자들은 언어 모델로부터 지침, 입력 및 출력 샘플을 생성했습니다. 원래 모델을 미세 조정하는 데 사용하기 전에 유효하지 않거나 유사한 샘플을 필터링합니다. 연구진은 이 방법을 GPT-3에 적용하고 Super-NaturalInstructions에서 검증했습니다. 결과는 원래 모델에 비해 33%가 향상되었음을 보여주었는데, 이는 개인 사용자 데이터와 수동 주석으로 학습된 InstructGPT-001의 성능과 비슷합니다.

공식 계정을 팔로우하고 "LLM 논문"이라고 답글을 달면 논문 모음을 다운로드할 수 있습니다.

참고문헌:

https://eugeneyan.com/writing/llm-reading-list/.