Von Amazon-Ingenieuren Sorgfältig Ausgewählt, Zusammenfassung Von Über 40 LLM-Artikeln

Im Jahr 2023 ist das große Sprachmodell immer noch ein "Themenmacher", ob es OpenAI Ob es sich nun um das „Palastkampfdrama“ der großen Unternehmen, den „Kampf der Götter“ zwischen neuen Modellen und neuen Produkten der großen Hersteller oder die boomende Entwicklung großer Modelle in der Branche handelt, all dies zeigt, dass große Sprachmodelle einen enormen Entwicklungsspielraum haben. Der Duft von Blumen zieht Schmetterlinge an. ChatGPT Nachdem sie über Nacht zu einer Sensation wurden, hören wir oft von Nachrichten über Bonzen aus allen Gesellschaftsschichten, die ins Spiel kommen, und über Start-ups mit unterschiedlichen Finanzierungs- oder technischen Hintergründen, die wie Pilze nach dem Regen aus dem Boden schießen.
Natürlich wird sich eine so lebendige Szene im Jahr 2024 nicht so schnell abkühlen. Immer mehr Unternehmen und traditionelle Branchen beginnen zu erforschen, wie sie große Sprachmodelle auf ihr eigenes Geschäft anwenden können. Die rasch wachsende Marktnachfrage hat außerdem zu einer weiteren Vertiefung und Innovation der Forschung in verwandten Bereichen geführt und die Aktualisierung von Artikeln auf Plattformen wie arXiv erfolgt häufiger.
Welche davon sind lesenswert? Welche Wissenspunkte verbergen sich hinter den komplexen Aufsatztiteln?
Um Ihnen zu helfen, hochwertige Dokumente schneller abzurufen,Der Amazon-Ingenieur Eugene Yan und andere haben eine Leseliste mit Artikeln zu Sprachmodellen erstellt und geben weiterhin hochmoderne Artikel weiter. Aktuell liegen über 40 hochwertige Aufsätze vor.
Link zur Sammlung:
https://eugeneyan.com/writing/llm-reading-list/
Folgen Sie dem offiziellen Konto und antworten Sie mit „LLM Papers“, um die Sammlung der Dokumente herunterzuladen.
Transformator-Pionierpapier
Aufmerksamkeit ist alles, was Sie brauchen

*Autor:NEAR-Mitbegründer Illia Polosukhin (ehemaliges Mitglied des Google AI-Teams) und andere
*Original:https://arxiv.org/abs/1706.03762
Die gängigen Sequenztransduktionsmodelle basieren auf Encoder-Decoder-Konfigurationen komplexer rekurrierender oder faltender neuronaler Netzwerke. Hochleistungsmodelle verbinden Encoder und Decoder außerdem über einen Aufmerksamkeitsmechanismus. In dieser Studie wurde eine neue einfache Netzwerkarchitektur vorgeschlagen – Transformer, die vollständig auf dem Aufmerksamkeitsmechanismus basiert und den Prozess der rekursiven und faltenden neuronalen Netzwerkkonfiguration vollständig eliminiert. Experimente mit zwei maschinellen Übersetzungsaufgaben zeigen, dass diese Modelle eine verbesserte Qualität aufweisen, besser parallelisierbar sind und deutlich weniger Trainingszeit erfordern.
GPT: Verbesserung des Sprachverständnisses durch generatives Vortraining
Verbesserung des Sprachverständnisses durch generatives Vortraining

*Autor:OpenAI
*Original:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
Das Verstehen natürlicher Sprache umfasst ein breites Spektrum an Aufgaben, wie etwa Textassoziation, Beantwortung von Fragen und Beurteilung semantischer Ähnlichkeiten. Zwar stehen umfangreiche, unbeschriftete Textkorpora zur Verfügung, doch sind die beschrifteten Daten zum Erlernen dieser spezifischen Aufgaben begrenzt, was es für Modelle, die auf Unterscheidungsvermögen trainiert wurden, schwierig macht, eine angemessene Leistung zu erbringen. Als Reaktion darauf schlugen die Forscher von OpenAI auf Anregung von Ilya vor, dieses Phänomen könne verbessert werden, indem das Sprachmodell anhand eines umfangreichen, unbeschrifteten Textkorpus vortrainiert und für jede spezifische Aufgabe eine differenzielle Feinabstimmung vorgenommen werde. Die Forscher verwendeten während des Feinabstimmungsprozesses aufgabenbewusste Eingabetransformationen, die weniger Anpassungen an der Modellarchitektur erforderten und gleichzeitig ein effektives Transferlernen ermöglichten.
Vergleichende experimentelle Ergebnisse bei allgemeinen Aufgaben zeigen, dass das Modell eine Leistungsverbesserung von 8,9% beim gesunden Menschenverstand (Stories Cloze Test), 5,7% beim Beantworten von Fragen (RACE) und 1,5% bei der Textassoziation (MultiNLI) erreichte.
BERT: Vortraining tiefer bidirektionaler Transformatoren für das Sprachverständnis
BERT: Vortraining tiefer bidirektionaler Transformatoren für das Sprachverständnis

*Autor:Google DeepMind
*Original:https://arxiv.org/abs/1810.04805
Die Forscher schlugen ein neues Sprachdarstellungsmodell vor: BERT (Bidirectional Encoder Representations from Transformers), das tiefe bidirektionale Darstellungen vortrainiert, indem es den Kontext in allen Schichten berücksichtigt. Daher können vortrainierte BERT-Modelle durch einfaches Hinzufügen einer Ausgabeebene feinabgestimmt werden. So können hochmoderne Modelle für mehrere Aufgaben wie die Beantwortung von Fragen und das logische Denken in Sprachen erstellt werden, ohne dass umfangreiche aufgabenspezifische Architekturänderungen erforderlich sind.
BERT hat bei 11 Aufgaben zur Verarbeitung natürlicher Sprache erhebliche Verbesserungen erzielt, darunter eine Erhöhung des GLUE-Scores auf 80,5% (eine relative Verbesserung von 7,7%), der MultiNLI-Genauigkeit auf 86,7% (eine relative Verbesserung von 4,6%), des SQuAD v1.1-Frage-Antwort-Tests F1 auf 93,2 (eine relative Verbesserung von 1,5%) und des SQuAD v2.0-Tests F1 auf 83,1 (eine relative Verbesserung von 5,1%).
T5: Die Grenzen des Transferlernens mit einem einheitlichen Text-zu-Text-Transformator erkunden
Ausloten der Grenzen des Transferlernens mit einem einheitlichen Text-zu-Text-Transformator

*Autor:Google DeepMind
*Original:https://arxiv.org/abs/1910.10683
Die Forscher untersuchten außerdem Transferlerntechniken für NLP, indem sie ein einheitliches Framework einführten, das alle textbasierten Sprachprobleme in ein Text-zu-Text-Format konvertiert. Die Studie verglich Vortrainingsziele, Architekturen, unbeschriftete Datensätze, Übertragungsmethoden und andere Faktoren bei Dutzenden von Sprachverständnisaufgaben. Durch die Kombination vergleichender und experimenteller Ergebnisse mit dem neu vorgeschlagenen Colossal Clean Crawled Corpus des Teams erzielte diese Studie hochmoderne Ergebnisse in mehreren Benchmarks wie Zusammenfassung, Beantwortung von Fragen und Textklassifizierung.
GPT2: Sprachmodell ist ein unüberwachter Multitasking-Lerner
Sprachmodelle sind unüberwachte Multitasking-Lerner

*Autor:OpenAI
*Original:https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
Die Forschung zeigt, dass Sprachmodelle Aufgaben der natürlichen Sprachverarbeitung ohne explizite Aufsicht erlernen können, wenn sie mit einem neuen Datensatz, WebText, trainiert werden, der aus Millionen von Webseiten besteht. Wenn die Bedingung „Dokument + Frage“ gegeben ist, lautet die vom Sprachmodell generierte Antwort CoQA Für den Datensatz wird ein F1-Score von 55 erreicht, der 3 von 4 Basissystemen entspricht oder diese übertrifft, ohne dass mehr als 127.000 Trainingsbeispiele erforderlich sind. GPT-2 ist ein Transformer mit 1,5 Milliarden Parametern. In der Zero-Shot-Einstellung erzielte es die beste Leistung in 7 der 8 getesteten Sprachmodellierungsdatensätze, ist jedoch immer noch nicht vollständig an WebText angepasst.
GPT-3: Sprachmodelle sind Lerner mit wenigen Erfolgsaussichten
Sprachmodelle sind Lerner mit wenigen Erfolgsaussichten

*Autor:Anthropic-Gründer Dario Amodei, OpenAI-Mitbegründer Ilya Sutskever und andere
*Original:https://arxiv.org/abs/2005.14165
Die Forscher trainierten ein autoregressives Sprachmodell, GPT-3, und testeten seine Leistung anhand einer Handvoll Szenarien. Bei allen Aufgaben führt GPT-3 keine Gradientenaktualisierungen oder Feinabstimmungen durch, und die Aufgaben und Demonstrationen mit wenigen Beispielen werden ausschließlich durch Textinteraktionen mit dem Modell erreicht. GPT-3 erzielt bei den meisten NLP-Datensätzen eine gute Leistung, darunter bei Übersetzungen, der Beantwortung von Fragen und einigen Aufgaben, die spontanes Denken oder Domänenanpassung erfordern, wie etwa das Entschlüsseln von Wörtern, die Verwendung neuer Wörter in Sätzen oder das Ausführen dreistelliger Arithmetik. Darüber hinaus stellten die Forscher fest, dass GPT-3 Nachrichtenartikel generieren kann, die für Menschen schwer zu unterscheiden sind.
Skalierungsgesetze für neuronale Sprachmodelle: Training größerer Modelle anhand kleinerer Datensätze
Skalierungsgesetze für neuronale Sprachmodelle

*Autor:Anthropic-Gründer Dario Amodei und OpenAI-Forscher
*Original:https://arxiv.org/abs/2001.08361
Die Forscher untersuchten die Skalierung der Sprachmodellleistung hinsichtlich des Kreuzentropieverlusts. Der Verlust skaliert potenzweise mit der Modellgröße, der Datensatzgröße und der für das Training verwendeten Rechenleistung, wobei einige Skalierungstrends 7 Größenordnungen überschreiten. Die Abhängigkeit der Überanpassung von der Modell-/Datensatzgröße und die Abhängigkeit der Trainingsgeschwindigkeit von der Modellgröße werden beide durch einfache Gleichungen bestimmt. Auf dieser Grundlage schlagen die Forscher vor, dass die Stichprobeneffizienz des Modells umso größer ist, je größer es ist. Daher erfordert das Training für optimale Rechenleistung das Training größerer Modelle mit relativ kleinen Datenmengen und ein aggressives Anhalten vor der Konvergenz.
Chinchilla: Training großer Sprachmodelle mit optimaler Rechenleistung
Training rechenoptimierter großer Sprachmodelle

*Autor:Google DeepMind
*Original:https://arxiv.org/abs/2203.15556
Die Forscher schlugen vor, dass die Modellgröße und die Anzahl der Trainingstoken proportional zunehmen sollten, und überprüften diese Hypothese durch das Training eines vorhergesagten rechnerisch effizienten Modells, Chinchilla. Chinchilla nutzt die gleiche Rechenleistung wie Gopher, allerdings mit einer Parametergröße von 7 Milliarden und der vierfachen Datenmenge. Chinchilla übertrifft Gopher (280 B), GPT-3 (175 B), Jurassic-1 (178 B) und Megatron-Turing NLG (530 B) bei verschiedenen nachgelagerten Bewertungsaufgaben deutlich. Dies bedeutet auch, dass Chinchilla bei der Feinabstimmung und Inferenz deutlich weniger Rechenressourcen verbraucht, was nachgelagerte Anwendungen erheblich erleichtert.
LLaMA: Ein offenes und effizientes Basissprachenmodell
LLaMA: Offene und effiziente grundlegende Sprachmodelle

*Autor:Guillaume Lample, Mitbegründer von Mistral AI (früher bei Meta AI tätig) und anderen
*Original:https://arxiv.org/abs/2302.13971
LLaMA ist eine Sammlung grundlegender Sprachmodelle mit Parametern im Bereich von 7 B bis 65 B. Die Meta-AI-Forscher haben das Modell anhand von Billionen von Token trainiert und dabei nur öffentlich verfügbare Datensätze verwendet, nicht jedoch proprietäre und unzugängliche Datensätze. LLaMA-13B übertrifft GPT-3 (175B) bei den meisten Benchmarks, während LLaMA-65B mit Chinchilla-70B und PaLM-540B vergleichbar ist.
InstructGPT: Trainieren eines Sprachmodells, um Anweisungen durch menschliches Feedback zu befolgen
Trainieren von Sprachmodellen zum Befolgen von Anweisungen mit menschlichem Feedback

*Autor:OpenAI
*Original:https://arxiv.org/abs/2203.02155
Die Forscher zeigten, dass Sprachmodelle an die Benutzerabsicht angepasst werden können, indem sie mithilfe von menschlichem Feedback zu einer Vielzahl von Aufgaben feinabgestimmt werden. Die Forscher nennen das resultierende Modell InstructGPT, und bei einer Bewertung der prompten Verteilung wurden die Ausgaben des 1,3B-InstructGPT-Modells gegenüber den Ausgaben des 175B-GPT-3-Modells bevorzugt. Darüber hinaus wurde InstructGPT auch im Hinblick auf den Realismus und die Reduzierung der toxischen Emissionen verbessert.
LoRA: Low-Rank-Adaption großer Sprachmodelle
LoRA: Low-Rank-Adaption großer Sprachmodelle

*Autor:Microsoft
*Original:https://arxiv.org/abs/2106.09685
Microsoft-Forscher schlugen LoRA (Low-Rank Adaptation) vor, das die Gewichte des vortrainierten Modells einfriert und eine trainierbare Rangzerlegungsmatrix in jede Schicht der Transformer-Architektur einfügt, wodurch die Anzahl der trainierbaren Parameter für nachgelagerte Aufgaben erheblich reduziert wird. Im Vergleich zu GPT-3 175B, das mit Adam feinabgestimmt wurde, kann LoRA die Anzahl der trainierbaren Parameter um das 10.000-fache und den GPU-Speicherbedarf um das Dreifache reduzieren.
QLoRA: Effiziente Feinabstimmung quantisierter großer Sprachmodelle
QLoRA: Effiziente Feinabstimmung quantisierter LLMs

*Autor:Forscher der University of Washington
*Original:https://arxiv.org/abs/2305.14314
QLoRA ist eine effiziente Feinabstimmungsmethode, die den Speicherverbrauch reduzieren und ein 65-B-Parametermodell auf einer einzelnen 48-GB-GPU feinabstimmen kann, während die volle Leistung der 16-Bit-Feinabstimmungsaufgabe erhalten bleibt. QLoRA führt eine Rückpropagierung der Gradienten zu LoRA durch ein eingefrorenes, quantisiertes, vortrainiertes 4-Bit-Sprachmodell durch. Die Forscher nannten das leistungsstärkste Modell auf Basis von QLoRA Guanaco, das im Vicuna-Benchmark alle zuvor öffentlich veröffentlichten Modelle übertraf und das Leistungsniveau von ChatGPT 99.3% erreichte, während nur 24 Stunden Feinabstimmung auf einer einzigen GPU erforderlich waren.
DPR: Dichte Passagenabfrage für die Beantwortung von Fragen im offenen Bereich
Dichte Passagenabfrage für die Beantwortung von Fragen in offenen Domänen

*Autor:FAIR bei Meta
*Original:https://arxiv.org/abs/2004.04906
In dieser Arbeit zeigten die Forscher, wie man einen Abruf nur unter Verwendung dichter Darstellungen erreichen kann, nämlich durch das Lernen von Einbettungen aus einer kleinen Anzahl von Fragen und Absätzen über ein einfaches Dual-Encoder-Framework. Bei der Auswertung anhand eines umfangreichen Open-Domain-Frage-Antwort-Datensatzes erreicht der Retriever bei der Abrufgenauigkeit der Top-20-Absätze eine Verbesserung von 9%-19% gegenüber Lucene-BM25.
RAG: Retrieval-erweiterte Generierung für wissensintensive NLP-Aufgaben
Retrieval-Augmented Generation für wissensintensive NLP-Aufgaben

*Autor:Forscher von Meta, UCL und University College London
*Original:https://arxiv.org/abs/2005.11401
Die Forscher schlugen eine allgemeine Feinabstimmungsmethode namens RAG (Retrieval-Augmented Generation) vor, die vorab trainierte Parameter und Nicht-Parameter zur Sprachgenerierung kombiniert. Diese Studie stellt das RAG-Modell vor, bei dem der Parameterspeicher ein vortrainiertes seq2seq-Modell und der nichtparametrische Speicher der dichte Vektorindex (DPR) von Wikipedia ist, auf den über einen vortrainierten neuronalen Retriever zugegriffen werden kann. Die Forscher verglichen zwei RAG-Schemata: eines, das auf dem gleichen Absatz basierte, der in der gesamten generierten Sequenz abgerufen wurde, und ein anderes, das für jedes Token auf einem anderen Absatz basierte. Bei der Sprachgenerierungsaufgabe stellten die Forscher fest, dass die vom RAG-Modell generierte Sprache spezifischer, vielfältiger und realistischer war als die vom hochmodernen rein parametrischen seq2seq-Basismodell generierte Sprache.
RETRO: Verbesserung der Sprachmodellleistung durch Abrufen von Billionen von Token
Verbesserung von Sprachmodellen durch Abrufen von Billionen von Token

*Autor:Google DeepMind
*Original:https://arxiv.org/abs/2112.04426
Retrieval-Enhanced Transformer (RETRO) erreicht mit einer 2 Billionen beschrifteten Datenbank eine vergleichbare Leistung auf Pile, obwohl 25-mal weniger Parameter als bei GPT-3 und Jurassic-1 verwendet werden. RETRO kombiniert einen Frozen-BERT-Retriever, einen differenzierbaren Encoder und einen blockweisen Cross-Attention-Mechanismus, um Tags auf der Grundlage einer Größenordnung mehr Daten vorherzusagen, als während des Trainings verbraucht wurden.
Erstellen internetgestützter Sprachmodelle mit einigen Hinweisen zur Beantwortung von Fragen in offenen Domänen
Internet-erweiterte Sprachmodelle durch Few-Shot-Prompting zur Beantwortung von Fragen in offenen Domänen

*Autor:Google DeepMind
*Original:https://arxiv.org/abs/2203.05115
Ziel dieser Studie ist es, die einzigartige Fähigkeit von Large Scale Language Models (LSLMs), kleine Eingabeaufforderungen zu verarbeiten, zu nutzen, um die Herausforderungen zu bewältigen, die mit der Tatsache verbunden sind, dass sie faktenbasiert und aktuell sind. Die Forscher stellten fest, dass netzwerkbasierte Sprachmodelle bei der Beantwortung von Fragen in offenen Domänen Closed-Book-Modellen ähnlicher oder größerer Größe überlegen sind. Darüber hinaus kann durch die Generierung mehrerer Antworten unter Verwendung mehrerer Abrufnachweise und deren anschließende Neubewertung anhand der von denselben LMs generierten Punktzahlen die Inferenzberechnungszeit des Modells verbessert werden, wodurch die Leistung verbessert und das Problem der geringen Leistung einer kleinen Anzahl von LMs gemildert wird.
HyDE: Zero-Shot Dense Retrieval ohne Relevanzlabels
Präzises Zero-Shot Dense Retrieval ohne Relevanzlabels

*Autor:Forscher der Carnegie Mellon University und der University of Waterloo
*Original:https://arxiv.org/abs/2212.10496
In diesem Experiment leitet HyDE (Hypothetical Document Embeddings) zunächst ein Anweisungs-folgendes Sprachmodell (z. B. InstructGPT) an, um im Zero-Shot-Verfahren ein hypothetisches Dokument zu generieren. Dieses Dokument erfasst Korrelationsmuster, ist jedoch fiktiv und kann falsche Angaben enthalten. Anschließend kodiert ein Encoder mit unüberwachtem kontrastivem Lernen (z. B. Contriever) die Dokumente in Einbettungsvektoren. Dieser Vektor identifiziert eine Nachbarschaft im Korpus-Einbettungsraum, in der ähnliche reale Dokumente basierend auf Vektorähnlichkeit abgerufen werden. Experimente zeigen, dass HyDE den hochmodernen, unbeaufsichtigten Dense Retriever Contriever bei einer Vielzahl von Aufgaben und Sprachen deutlich übertrifft und eine starke Leistung zeigt, die mit fein abgestimmten Retrievern vergleichbar ist.
FlashAttention: Präziser Aufmerksamkeitsalgorithmus mit IO-Awareness
FlashAttention: Schnelle und speichereffiziente Exact Attention mit IO-Awareness

*Autor:Forscher der Stanford University und der State University of New York
*Original:https://arxiv.org/abs/2205.14135
FlashAttention ist ein IO-fähiger, präziser Aufmerksamkeitsalgorithmus, der Kacheln verwendet, um die Anzahl der Speicherlese- und -schreibvorgänge zwischen dem GPU-Hochbandbreitenspeicher (HBM) und dem GPU-On-Chip-SRAM zu reduzieren. FlashAttention und Block-Sparse FlashAttention ermöglichen längere Kontexte in Transformers, was zu qualitativ hochwertigeren Modellen und innovativen Funktionen führt.
Achtung: Lineare Verzerrung zur Erzielung einer Extrapolation der Eingangslänge
Kurz trainieren, lang testen: Aufmerksamkeit mit linearen Biases ermöglicht die Extrapolation der Eingabelänge

*Autor:Forschungsteams der University of Washington, FAIR usw.
*Original:https://arxiv.org/abs/2108.12409
Die Forscher schlugen eine einfachere und effizientere Methode zur Positionsdarstellung vor – ALiBi (Attention with Linear Biases), mit der ein Modell mit 1,3 Milliarden Parametern anhand einer Eingabesequenz der Länge 1024 trainiert und eine Eingabesequenz der Länge 2048 abgeleitet werden kann. Es erreicht die gleiche Leistung wie das mit einer Eingabesequenz der Länge 2048 trainierte sinusförmige Positions-Embedding-Modell, ist beim Training jedoch 11% schneller und benötigt 11% weniger Speicher.
Codex: Evaluieren großer, mit Code trainierter Sprachmodelle
Auswerten großer, mit Code trainierter Sprachmodelle

*Autor:OpenAI
*Original:https://arxiv.org/abs/2107.03374
Die Forscher stellten das GPT-Sprachmodell Codex vor, das auf der Grundlage des öffentlichen Codes von GitHub optimiert wurde, und untersuchten seine Fähigkeiten zum Schreiben von Python-Code. Gleichzeitig veröffentlichten die Forscher auch ein neues Evaluierungsset namens HumanEval, mit dem die funktionale Korrektheit von aus Dokumentskripten synthetisierten Programmen gemessen wird. In diesem Evaluierungssatz löste Codex 28,81 TP3T-Probleme, während GPT-3 01 TP3T und GPT-J 11,41 TP3T löste.
Ebenennormalisierung
Ebenennormalisierung

*Autor:Forscher an der Universität Toronto
*Original:https://arxiv.org/abs/1607.06450
Die Forscher konvertierten die Batch-Normalisierung in eine Schichtnormalisierung, d. h. in einer einzelnen Trainingsprobe wird die Normalisierung durch Berechnung des Mittelwerts und der Varianz der Summe aller Eingaben der Neuronen in der Schicht erreicht. Im Gegensatz zur Batch-Normalisierung führt die Layer-Normalisierung zur Trainings- und Testzeit genau die gleiche Berechnung durch. Wir zeigen empirisch, dass die Schichtnormalisierung die Trainingszeit im Vergleich zu zuvor veröffentlichten Techniken erheblich verkürzen kann.
Schichtnormalisierung in der Transformer-Architektur
On-Layer-Normalisierung in der Transformer-Architektur

*Autor:Microsoft
*Original:https://arxiv.org/abs/2002.04745
Die Forscher verwendeten die Mean-Field-Theorie, um zu beweisen, dass in der Initialisierungsphase für den ursprünglich entwickelten Post-LN-Transformator der erwartete Gradient der Parameter in der Nähe der Ausgabeschicht groß ist und dass die Verwendung einer darauf basierenden hohen Lernrate das Training instabil machen würde. Wenn die Schichtnormalisierung außerdem im Post-LN-Transformator platziert wird, verhalten sich die Gradienten bei der Initialisierung gut. Studien haben gezeigt, dass Pre-LN Transforme ohne Aufwärmphase in praktischen Anwendungen vergleichbare Ergebnisse wie die Basislinie erzielen kann, während gleichzeitig die Trainingszeit und die Hyperparameter-Optimierung reduziert werden.
PPO: Proximaler Richtlinienoptimierungsalgorithmus
Proximale Richtlinienoptimierungsalgorithmen

*Autor:OpenAI
*Original:https://arxiv.org/abs/1707.06347
Die von den Forschern vorgeschlagene PPO (Proximal Policy Optimization) hat ähnliche Vorteile wie TRPO (Rust Region Policy Optimization), ist jedoch einfacher, allgemeiner und weist eine bessere Stichprobenkomplexität auf. Die Forscher testeten PPO anhand einer Reihe von Benchmark-Aufgaben und zeigten, dass PPO anderen Online-Policy-Gradient-Methoden überlegen ist und im Allgemeinen ein gutes Gleichgewicht zwischen Stichprobenkomplexität, Einfachheit und Realzeit bietet.
WizardCoder: Verwendung von Evol-Instruct zur Verbesserung der Fähigkeit, große Sprachmodelle zu codieren
WizardCoder: Stärkung des Codes großer Sprachmodelle mit Evol-Instruct

*Autor:Forscher von Microsoft und der Hong Kong Baptist University
*Original:https://arxiv.org/abs/2306.08568
Der von den Forschern vorgeschlagene WizardCoder ermöglicht Code LLM die Feinabstimmung komplexer Anweisungen durch Anpassung der Evol-Instruct-Methode an den Codebereich. Experimente mit vier Codegenerierungs-Benchmarks – HumanEval, HumanEval+, MBPP und DS-1000 – zeigen, dass WizardCoder alle anderen Open-Source-Code-LLMs deutlich übertrifft. Darüber hinaus übertrifft WizardCoder bei HumanEval und HumanEval+ sogar Claude von Anthropic und Bard von Google.
Llama 2: Offene Basis und fein abgestimmte Chat-Modelle
Llama 2: Offene Grundlage und fein abgestimmte Chat-Modelle

*Autor:GenAI, Meta
*Original:https://arxiv.org/abs/2307.09288
Llama 2 ist eine Sammlung großer vortrainierter und fein abgestimmter Sprachmodelle mit einer Größe von 7 bis 70 Milliarden Parametern. Das fein abgestimmte LLM der Forscher namens Llama 2-Chat ist für Konversationsanwendungen optimiert. In dem Dokument wird detailliert beschrieben, wie die Forscher die Sicherheit von Llama 2-Chat optimiert und verbessert haben.
RWKV: RNNs für das Transformer-Zeitalter neu definieren
RWKV: RNNs für das Transformer-Zeitalter neu erfinden

*Autor:EleutherAI, Universität Barcelona und andere Forschungsteams
*Original:https://arxiv.org/abs/2305.13048
Die Forscher schlugen eine neuartige Modellarchitektur namens Receptance Weighted Key Value (RWKV) vor, die das effiziente parallele Training von Transformer und die effiziente Inferenz von RNN kombiniert. Diese Methode nutzt den linearen Aufmerksamkeitsmechanismus und kann das Modell als Transformer oder RNN formulieren, wodurch die Berechnung während des Trainings parallelisiert und während der Inferenz eine konstante Berechnungs- und Speicherkomplexität aufrechterhalten wird. Die Forscher skalierten das Modell auf 14 Milliarden Parameter und machten es damit zum bislang größten dichten RNN-Modell.
RLAIF: Harmloses KI-Feedback
Verfassungsmäßige KI: Unbedenklichkeit durch KI-Feedback

*Autor:Anthropisch
*Original:https://arxiv.org/abs/2212.08073
Forscher versuchen, einen KI-Assistenten durch Selbstverbesserung zu trainieren, ein Ansatz, den sie „Constitutional AI“ nennen. Der Trainingsprozess umfasst zwei Phasen: überwachtes Lernen und bestärkendes Lernen. In der Phase des überwachten Lernens nahmen die Forscher Stichproben aus dem ursprünglichen Modell, führten dann Selbstkritiken und Überarbeitungen durch und optimierten schließlich das ursprüngliche Modell anhand der überarbeiteten Antworten.
Während der Phase des bestärkenden Lernens entnehmen die Forscher Stichproben aus dem fein abgestimmten Modell, verwenden das Modell, um zu beurteilen, welche der beiden Stichproben besser ist, und trainieren dann das Präferenzmodell anhand des bevorzugten Datensatzes der KI. Anschließend nutzten die Forscher das Präferenzmodell als Belohnungssignal für das RL-Training unter Verwendung von RL from AI Feedback (RLAIF).
Sehr große neuronale Netzwerke
Unerhört große neuronale Netzwerke: Die spärlich gesteuerte Expertenmischungsschicht

*Autor:Google Brain (fusioniert mit DeepMind)
*Original:https://arxiv.org/abs/1701.06538
Die Forscher führten ein spärlich gesteuertes MoE (Mixture-of-Experts) ein, das aus bis zu Tausenden von Feedforward-Subnetzwerken besteht, und wandten MoE auf Sprachmodellierungs- und maschinelle Übersetzungsaufgaben an. Bei diesen Aufgaben ist die Modellkapazität von entscheidender Bedeutung, um die große Menge an Wissen im Trainingskorpus zu verarbeiten. Die Forscher schlugen eine Modellarchitektur vor, in der MoE mit bis zu 137 Milliarden Parametern faltend zwischen gestapelten LSTM-Schichten angewendet wird. Bei umfangreichen Benchmarks zur Sprachmodellierung und maschinellen Übersetzung übertrifft das Modell den aktuellen Stand der Technik deutlich und erfordert dabei weniger Rechenleistung.
CLIP: Übertragbare Vision-Modelle durch natürliche Sprachüberwachung erlernen
Übertragbare visuelle Modelle durch natürliche Sprachüberwachung erlernen

*Autor:OpenAI
*Original:https://arxiv.org/abs/2103.00020
Wir schlagen eine Vortrainingsaufgabe vor, bei der vorhergesagt wird, welche Beschriftung zu welchem Bild gehört, als effiziente und skalierbare Möglichkeit, modernste Bilddarstellungen von Grund auf zu erlernen. Für die Studie wurde ein Datensatz von 400 Millionen aus dem Internet gesammelten Bild- und Textpaaren verwendet. Nach dem Vortraining wird natürliche Sprache verwendet, um auf erlernte visuelle Konzepte zu verweisen (oder neue Konzepte zu beschreiben), wodurch eine Zero-Shot-Übertragung von Modellen auf nachgelagerte Aufgaben ermöglicht wird.
ViT: Transformer für die Bilderkennung im großen Maßstab
Ein Bild sagt mehr als 16×16 Worte: Transformatoren für die Bilderkennung im großen Maßstab

*Autor:Google Research, Brain Team (fusioniert mit DeepMind)
*Original:https://arxiv.org/abs/2010.11929
Die Anwendung von Faltungsoperationen geht normalerweise mit Einschränkungen globaler Strukturen und weitreichender Abhängigkeiten einher, sodass zur Lösung dieser Probleme mehr Parameter und tiefere Netzwerke erforderlich sind. Die Forscher schlugen ein vollständig auf Transformer basierendes Bilderkennungsmodell namens ViT (Vision Transformer) vor, das die Kernidee von Transformer übernimmt und globale Informationen erfassen kann.
Generative Agenten: Interaktive Simulation menschlichen Verhaltens
Generative Agenten: Interaktive Simulakren menschlichen Verhaltens

*Autor:Stanford University, Google DeepMind-Forscher
*Original:https://arxiv.org/abs/2304.03442
Um generative Agenten zu erstellen, schlugen die Forscher eine Architektur vor, die ein großes Sprachmodell erweitert, um den vollständigen Erfahrungsbericht des Agenten in natürlicher Sprache zu speichern, diese Erinnerungen schrittweise zu Reflexionen auf höherer Ebene zusammenzufassen und sie dynamisch abzurufen, um das Verhalten zu planen. Diese Studie führte Architektur- und Interaktionsmuster durch die Integration großer Sprachmodelle mit Computer- und interaktiven Agenten ein und erreichte die Simulation glaubwürdigen menschlichen Verhaltens.
DPO: Algorithmus zur direkten Präferenzoptimierung
Direkte Präferenzoptimierung: Ihr Sprachmodell ist insgeheim ein Belohnungsmodell

*Autor:Forscher der Stanford University
*Original:https://arxiv.org/abs/2305.18290
Der von den Forschern vorgeschlagene Algorithmus zur direkten Präferenzoptimierung (Direct Preference Optimization, DPO) ist stabil, effizient und rechnerisch leichtgewichtig, ohne dass ein Belohnungsmodell angepasst werden muss, während der Feinabstimmung keine Stichprobe aus dem LM entnommen werden muss oder erhebliche Anpassungen der Hyperparameter vorgenommen werden müssen. Experimente zeigen, dass DPO LMs so feinabstimmen kann, dass sie den menschlichen Vorlieben entsprechen. Experimente zeigen, dass die Feinabstimmung mit DPO bei der Kontrolle der erzeugten Emotionen besser ist als RLHF (verstärkendes Lernen aus menschlichem Feedback).
Konsistenzmodell
Konsistenzmodelle

*Autor:OpenAI
*Original:https://arxiv.org/abs/2303.01469
Das in dieser Studie vorgeschlagene Konsistenzmodell ist ein neues Modell, das qualitativ hochwertige Proben erzeugt, indem es Rauschen direkt auf Daten abbildet. Es unterstützt die schnelle Generierung in einem Schritt und kann auch mehrstufiges Sampling verwenden, um Berechnung und Samplingqualität auszugleichen. Das Modell ermöglicht außerdem die Zero-Shot-Datenbearbeitung, wie etwa Bildretuschierung, Kolorierung und Superauflösung, ohne dass für diese Aufgaben eine explizite Schulung erforderlich ist.
Potentielles Konsistenzmodell
Latente Konsistenzmodelle: Synthese hochauflösender Bilder mit Wenigschritt-Inferenz

*Autor:Forscher der Tsinghua-Universität
*Original:https://arxiv.org/abs/2310.04378
Die Forscher schlugen latente Konsistenzmodelle (LCMs) vor, die in möglichst wenigen Schritten schnelle Inferenzen auf allen vortrainierten latenten Diffusionsmodellen (LDMs), einschließlich stabiler Diffusion, durchführen können (Rombach et al.). Experimentelle Ergebnisse zeigen, dass durch effizientes Extrahieren aus einem vorab trainierten, klassifikatorfreien, geführten Diffusionsmodell ein hochwertiges 768 x 768 2~4-stufiges LCM nur 32 Stunden Training auf einer A100-GPU erfordert.
LCM-LoRA: Universelles stabiles Diffusionsbeschleunigungsmodul
LCM-LoRA: Ein universelles Stabildiffusionsbeschleunigungsmodul

*Autor:Tsinghua-Universität, Umarmungsgesicht
*Original:https://arxiv.org/abs/2311.05556
Diese Studie erweitert das Potenzial von LCMs weiter. Erstens erweiterten die Forscher durch die Anwendung von LoRA auf Stable-Diffusion-Modelle, darunter SD-V1.5, SSD-1B und SDXL, den Umfang von LCM auf große Modelle mit geringerem Speicherverbrauch und erreichten eine überlegene Bildgenerierungsqualität. Zweitens identifizierten die Forscher die durch LCM-Destillation erhaltenen LoRA-Parameter als allgemeines Stable-Diffusion-Beschleunigungsmodul und nannten es LCM-LoRA. LCM-LoRA kann ohne Training direkt in verschiedene fein abgestimmte Stable-Diffusion-Modelle oder LoRAs eingebunden werden und stellt somit einen allgemeinen Beschleuniger für verschiedene Bilderzeugungsaufgaben dar.
Chain-of-Note: Verbesserung der Robustheit von Retrieval-erweiterten Sprachmodellen
Chain-of-Note: Verbesserung der Robustheit in Retrieval-Augmented Language Models

*Autor:Tencent AI Lab
*Original:https://arxiv.org/abs/2311.09210
Die von den Forschern vorgeschlagene Chain-of-Noting (CoN) kann die Robustheit des Retrieval Enhanced Language Model (RALM) gegenüber verrauschten, irrelevanten Dokumenten und im Umgang mit unbekannten Szenarien verbessern. CoN kann sequentielle Leseanmerkungen für abgerufene Dokumente erstellen, um deren Relevanz für eine bestimmte Frage gründlich zu bewerten und diese Informationen in den Prozess der Formulierung der endgültigen Antwort zu integrieren.
Neue Fähigkeiten großer Sprachmodelle
Emergente Fähigkeiten großer Sprachmodelle

*Autor:Google Research, Stanford University, UNC, DeepMind
*Original:https://arxiv.org/abs/2206.07682
Die Forscher schlugen emergente Fähigkeiten großer Sprachmodelle vor und definierten diese als Fähigkeiten, die in kleineren Modellen fehlen, in großen Modellen jedoch vorhanden sind, gemessen am Umfang der Trainingsberechnungen und der Anzahl der Modellparameter.
Q-Transformer: Skalierbares Offline-Reinforcement-Learning über autoregressive Q-Funktionen
Q-Transformer: Skalierbares Offline-Reinforcement-Learning mittels autoregressiver Q-Funktionen

*Autor:Google DeepMind
*Original:https://arxiv.org/abs/2309.10150
Die Forscher schlugen mit Q-Transformer eine skalierbare Methode des bestärkenden Lernens zum Trainieren von Multitasking-Richtlinien vor, die sowohl menschliche Demonstrationen als auch autonom erfasste Daten aus großen Offline-Datensätzen nutzen kann. Die Methode verwendet Transformer, um eine skalierbare Darstellung der Q-Funktion bereitzustellen, und wird über eine Offline-Zeitdifferenzsicherung trainiert.
Lama-Wächter
Llama Guard: LLM-basierter Input-Output-Schutz für Mensch-KI-Konversationen

*Autor:Meta GenAI
*Original:https://arxiv.org/abs/2312.06674
Llama Guard ist ein LLM-basiertes Eingabe- und Ausgabeschutzmodell, das auf der Grundlage des Llama2-7b-Modells auf dem von Meta gesammelten Datensatz fein abgestimmt ist. Trotz der geringen Datenmenge schneidet es in bestehenden Benchmarks wie dem OpenAI Moderation Evaluation Dataset und ToxicChat gut ab und seine Leistung entspricht den derzeit verfügbaren Tools zur Inhaltsüberprüfung oder übertrifft diese sogar.
ReSTEM: Mehr als menschliche Daten
Jenseits menschlicher Daten: Skalierung des Selbsttrainings zur Problemlösung mit Sprachmodellen

*Autor:Google DeepMind, Mila
*Original:https://arxiv.org/abs/2312.06585
Die Forscher schlugen eine auf Erwartungsmaximierung basierende Selbsttrainingsmethode namens ReSTEM vor, die Stichproben aus dem Modell generiert und diese mithilfe binärer Rückmeldungen filtert, diese Stichproben dann fein abstimmt und den Vorgang mehrere Male wiederholt. Bei der Verwendung des PaLM-2-Modells für die MATH-Inferenz- und APPS-Kodierungsbenchmarks stellten die Forscher fest, dass die Leistung von ReSTEM mit der Modellgröße skalierte und die Feinabstimmungsmethoden bei menschlichen Daten deutlich übertraf.
Gemischte Expertenmodelle

*Quelle:Umarmendes Gesicht
*Original:https://huggingface.co/blog/moe
SPIN: Self-Game-Feintuning transformiert schwache Sprachmodelle in starke Sprachmodelle
Self-Play-Feinabstimmung wandelt schwache Sprachmodelle in starke Sprachmodelle um

*Autor:Forscher der UCLA, der Tsinghua-Universität und der University of California
*Original:https://arxiv.org/abs/2401.01335
Die Forscher schlugen eine neue Feinabstimmungsmethode namens Self-Play Fine-Tuning (SPIN) vor, deren Kern der Selbstspielmechanismus ist. Das Sprachmodell generiert Trainingsdaten aus seiner vorherigen Iteration und passt seine Strategie weiter an, indem es diese selbst generierten Antworten von Antworten unterscheidet, die aus von Menschen annotierten Daten gewonnen wurden.
Selbstunterricht: Sprachmodelle mit automatisch generierter Unterrichtssprache abgleichen
Selbstunterricht: Sprachmodelle mit selbstgenerierten Anweisungen ausrichten

*Autor:Universität von Washington usw.
*Original:https://arxiv.org/abs/2212.10560
Das von den Forschern vorgeschlagene Self-Instruct kann die vom vortrainierten Sprachmodell selbst generierten Inhalte nutzen, um seine Fähigkeit zu verbessern, Anweisungen zu befolgen. Die Forscher generierten aus dem Sprachmodell Anleitungen sowie Eingabe- und Ausgabebeispiele. Filtern Sie ungültige oder ähnliche Beispiele, bevor Sie sie zur Feinabstimmung des ursprünglichen Modells verwenden. Die Forscher wendeten die Methode auf GPT-3 an und überprüften sie auf Super-NaturalInstructions. Die Ergebnisse zeigten eine Verbesserung von 33% gegenüber dem ursprünglichen Modell, die mit der Leistung von InstructGPT-001 vergleichbar ist, das mit privaten Benutzerdaten und manuellen Anmerkungen trainiert wurde.
Folgen Sie dem offiziellen Konto und antworten Sie mit „LLM Papers“, um die Sammlung der Dokumente herunterzuladen.
Quellen: