HyperAI超神経

2023 年になっても、大規模な言語モデルは依然として「トピック作成マシン」であるでしょう。 OpenAI 「Gongdouju」、さまざまな大手メーカーの新モデルや新製品、「神々の戦い」、または業界における大型モデルの開発ブームはすべて、大型言語モデルに大きな開発の余地があることを示しています。実際、花の香りはそれ自体で蝶を引き寄せます。チャットGPT 一夜にして人気が出た後は、さまざまな大手企業の参入のニュースをよく聞きますし、資金力や技術的バックグラウンドが異なるスタートアップ企業が雨後の筍のように生まれてきました。

このような活気が 2024 年になっても簡単に冷めないことは明らかです。ますます多くの企業や伝統的な産業が、大規模な言語モデルを自社のビジネスに適用する方法を模索し始めています。また、市場の需要が急速に拡大しているため、arXiv などのプラットフォームに関する研究もさらに深まり、革新されています。ますます頻繁に発生します。

どの論文が読む価値がありますか?複雑な論文タイトルの背後にある知識ポイントは何ですか?

誰もが価値の高い書類をより早く検索できるようにするために、Amazon のエンジニアであるユージン・ヤン氏らは、言語モデル論文の読書リストを確立し、最先端の論文を共有し続けており、現在 40 以上の質の高い論文が編集されています。

コレクションリンク:

https://eugeneyan.com/writing/llm-reading-list/

公式アカウントをフォローして「LLM Papers」とリプライすると、論文集をパッケージ化してダウンロードできます。

トランスフォーマーの先駆的な論文

必要なのは注意力だけです

*著者：NEAR 共同創設者 Illia Polosukhin (元 Google AI チームメンバー) 他

*オリジナル：https://arxiv.org/abs/1706.03762

主流のシーケンス変換モデルは、複雑なリカレントニューラルネットワークまたは畳み込みニューラルネットワークに基づくエンコーダー/デコーダー構成です。高性能モデルでは、アテンションメカニズムを通じてエンコーダーとデコーダーも接続されます。この研究は、新しいシンプルなネットワークアーキテクチャである Transformer を提案します。これは、アテンションメカニズムに完全に基づいており、再帰的および畳み込みニューラルネットワーク構成のプロセスを完全に排除します。 2 つの機械翻訳タスクの実験では、これらのモデルの品質が高く、並列化可能性が高く、必要なトレーニング時間が大幅に短縮されることがわかりました。

GPT: 生成的な事前トレーニングによる言語理解の向上

生成的事前トレーニングによる言語理解の向上

*著者：OpenAI

*オリジナル：https://cdn.openai.com/research-covers/language-教師なし/言語理解_論文.pdf

自然言語理解には、テキストの関連付け、質問応答、意味的類似性の評価など、さまざまなタスクが含まれます。ラベルのない大規模なテキストコーパスは豊富にありますが、これらの特定のタスクを学習するためのラベル付きデータは限られているため、識別的にトレーニングされたモデルが完全に効果的になることが困難になります。この点に関して、Ilya は OpenAI 研究者に対し、ラベルなしのリッチテキストコーパスで言語モデルを事前トレーニングし、特定のタスクごとに差分微調整を実行することで、この現象を改善できると提案させました。研究者らは、微調整プロセス中にタスクを意識した入力変換を使用し、モデルアーキテクチャをより細かく調整しながら効果的な転移学習を達成しました。

一般的なタスクの比較実験結果は、このモデルが常識推論 (Stories Cloze Test) で 8.9%、質問応答 (RACE) で 5.7%、およびテキスト関連付け (MultiNLI) で 1.5% のパフォーマンス向上を達成したことを示しています。

BERT: 言語理解のための深い双方向トランスフォーマーの事前トレーニング

BERT: 言語理解のための深い双方向トランスフォーマーの事前トレーニング

*著者：Googleディープマインド

*オリジナル：https://arxiv.org/abs/1810.04805

研究者らは、すべての層のコンテキストを包括的に考慮することで深い双方向表現を事前トレーニングする新しい言語表現モデル BERT (Bidirectional Encoder Representations from Transformers) を提案しました。その結果、出力層を追加するだけで、事前トレーニングされた BERT モデルを微調整して、タスク固有のアーキテクチャに大規模な変更を加えることなく、質問応答や言語推論などの複数の種類のタスク用の高度なモデルを作成できます。

BERT は 11 の自然言語処理タスクで大幅な改善を達成しました。これには、GLUE スコアが 80.5% (相対的に 7.7% の改善) に増加、MultiNLI の精度が 86.7% (相対的に 4.6% の改善) に増加、SQuAD v1.1 質問応答テスト F1 が増加しました。 93.2 (1.5% の相対増加)、SQuAD v2.0 テスト F1 は 83.1 (5.1% の相対増加) に増加しました。

T5: 統合されたテキストからテキストへのコンバーターを使用して転移学習の限界を探る

統合された Text-to-Text Transformer を使用して転移学習の限界を探る

*著者：Googleディープマインド

*オリジナル：https://arxiv.org/abs/1910.10683

研究者らは、すべてのテキストベースの言語の質問をテキストからテキストへの形式に変換する統一フレームワークを導入することで、NLP の転移学習技術をさらに研究しました。この研究では、数十の言語理解タスクにわたって、事前トレーニングの目的、アーキテクチャ、ラベルのないデータセット、転送方法、その他の要素を比較しました。比較結果と実験結果を、チームが新たに提案した Colossal Clean Crawled Corpus と組み合わせることで、この研究は、要約、質問応答、テキスト分類などの複数のベンチマークテストで最先端の結果を達成しました。

GPT2: 言語モデルは教師なしのマルチタスク学習者です

言語モデルは教師なしのマルチタスク学習者です

*著者：OpenAI

*オリジナル：https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

この研究は、言語モデルが、数百万の Web ページで構成される新しいデータセットである WebText でトレーニングされた場合、明示的な監視なしで自然言語処理タスクを学習できることを示しています。文書 + 質問の条件の場合、言語モデルによって生成される回答は次のようになります。 CoQA データセットの F1 スコアは 55 に達し、127,000 を超えるトレーニングサンプルを使用せずに 4 つのベースラインシステムのうち 3 つと一致またはそれを超えています。 GPT-2 は、15 億のパラメーターを備えた Transformer であり、ゼロショット設定では、テストされた 8 つの言語モデリングデータセットのうち 7 つで最適なパフォーマンスを達成しましたが、まだ WebText に完全には適応していません。

GPT-3: 言語モデルは数回で学習できる

言語モデルは少数の学習者である

*著者：Anthropic 創設者 Dario Amodei、OpenAI 共同創設者 Ilya Sutskever など

*オリジナル：https://arxiv.org/abs/2005.14165

研究者らは自己回帰言語モデル GPT-3 をトレーニングし、いくつかのシナリオでモデルのパフォーマンスをテストしました。すべてのタスクにおいて、GPT-3 は勾配の更新や微調整を実行せず、タスクと数ショットのデモンストレーションは純粋にモデルとのテキスト対話を通じて実装されます。 GPT-3 は、翻訳、質問応答、および単語のデコード、文内での新しい単語の使用、または 3 つの処理の実行など、オンザフライ推論やドメイン適応を必要とする一部のタスクを含む、ほとんどの NLP データセットで非常に優れたパフォーマンスを達成しています。数字の操作。さらに研究者らは、GPT-3が人間には区別するのが難しいニュース記事を生成できることを発見した。

ニューラル言語モデルのスケーリングルール: より少ないデータセットで大規模なモデルをトレーニングする

神経言語モデルのスケーリング則

*著者：Anthropic の創設者 Dario Amodei と OpenAI 研究者

*オリジナル：https://arxiv.org/abs/2001.08361

研究者は、言語モデルのパフォーマンスがクロスエントロピー損失に応じてどのようにスケールされるかを研究しました。損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量に応じてべき乗則に従って増加し、一部の増加傾向は 7 桁を超えます。過学習のモデル/データセットサイズへの依存性、およびトレーニング速度のモデルサイズへの依存性は、単純な方程式によって決定されます。これに基づいて研究者らは、モデルが大きくなるほどサンプル効率が高くなるため、計算効率の高いトレーニングを最適化するには、比較的少量のデータでより大きなモデルをトレーニングし、収束する前に大幅に停止する必要があると提案しています。

チンチラ: 最適な計算効率で大規模な言語モデルをトレーニングする

コンピューティングに最適な大規模言語モデルのトレーニング

*著者：Googleディープマインド

*オリジナル：https://arxiv.org/abs/2203.15556

研究者らは、モデルのサイズとトレーニングトークンの数が比例して増加するはずだと提案し、予測された計算効率の高い最適モデルであるチンチラをトレーニングすることでこの仮説を検証しました。 Chinchilla は Gopher と同じ計算能力を使用しますが、パラメータのサイズは 70 億で、データ量は 4 倍に増加します。 Chinchilla は、さまざまな下流評価タスクにおいて、Gopher (280B)、GPT-3 (175B)、Jurassic-1 (178B)、および Megatron-Turing NLG (530B) を大幅に上回っています。これは、Chinchilla が微調整と推論中に使用するコンピューティングリソースが大幅に少なくなり、ダウンストリームアプリケーションが大幅に容易になることも意味します。

LLaMA: オープンで効率的な基本言語モデル

LLaMA: オープンで効率的な基礎言語モデル

*著者：Mistral AI 共同創設者 Guillaume Lample (元 Meta AI 勤務) 他

*オリジナル：https://arxiv.org/abs/2302.13971

LLaMA は、7B から 65B までのパラメータを持つ基本的な言語モデルのコレクションです。 Meta AI の研究者は、独自のアクセス不可能なデータセットに頼ることなく、トレーニングプロセス中に公開されているデータセットのみを使用して、数兆のトークンでモデルをトレーニングしました。 LLaMA-13B はほとんどのベンチマークで GPT-3 (175B) を上回りますが、LLaMA-65B は Chinchilla-70B および PaLM-540B に匹敵します。

InstructGPT: 人間のフィードバックによる指示に従う言語モデルのトレーニング

人間のフィードバックによる指示に従うように言語モデルをトレーニングする

*著者：OpenAI

*オリジナル：https://arxiv.org/abs/2203.02155

研究者らは、言語モデルをユーザーの意図に合わせるために、さまざまなタスクにわたって人間のフィードバックによる微調整を実証しました。研究者らは、結果のモデルを InstructGPT と呼び、プロンプト分布の評価では、1.3B InstructGPT モデルの出力が 175B GPT-3 モデルの出力よりも好まれました。さらに、InstructGPT は信頼性の点でも改善され、有害な出力が減少しました。

LoRA: 大規模な言語モデルの低ランク適応

LoRA: 大規模言語モデルの低ランク適応

*著者：マイクロソフト

*オリジナル：https://arxiv.org/abs/2106.09685

Microsoft の研究者は、事前トレーニングされたモデルの重みを凍結し、トレーニング可能なランク分解行列を Transformer アーキテクチャの各層に注入できる LoRA (Low-Rank Adaptation) を提案しました。これにより、下流タスクのトレーニング可能なパラメーターの数が大幅に削減されます。 Adam で微調整された GPT-3 175B と比較して、LoRA はトレーニング可能なパラメーターの数を 10,000 分の 1 に削減し、GPU メモリ要件を 3 分の 1 に削減できます。

QLoRA: 定量的な大規模言語モデルの効率的な微調整

QLoRA: 量子化 LLM の効率的な微調整

*著者：ワシントン大学の研究者

*オリジナル：https://arxiv.org/abs/2305.14314

QLoRA は、完全な 16 ビット微調整タスクのパフォーマンスを維持しながら、メモリ使用量を削減し、単一の 48GB GPU で 65B パラメータモデルを微調整できる効率的な微調整方法です。 QLoRA は、凍結された 4 ビット量子化された事前トレーニング済み言語モデルを介して勾配を LoRA に逆伝播します。研究者らは、QLoRA Guanaco に基づく最高パフォーマンスのモデルを名付けました。このモデルは、Vicuna ベンチマークで以前に公開されたすべてのモデルを上回り、単一 GPU での微調整に必要な時間はわずか 24 時間で、ChatGPT 99.3% のパフォーマンスレベルに達しました。

DPR: オープンドメインの質問応答のための高密度チャネル取得

オープンドメインの質問応答のための密なパッセージの検索

*著者：メタでの公正

*オリジナル：https://arxiv.org/abs/2004.04906

この研究では、研究者らは、単純なデュアルエンコーダフレームワークを介して少数の質問とパッセージから埋め込みを学習することにより、高密度表現のみを使用して検索をどのように達成できるかを示しています。広範なオープンドメインの質問応答データセットで評価した場合、この検索ツールは、Lucene-BM25 と比較して、上位 20 段落の検索精度を 9% ～ 19% 向上させました。

RAG: 知識集約的な NLP タスクのための検索拡張生成

知識集約的な NLP タスクのための検索拡張生成

*著者：Meta、UCL、ユニバーシティ・カレッジ・ロンドンの研究者

*オリジナル：https://arxiv.org/abs/2005.11401

研究者らは、言語生成のために事前にトレーニングされたパラメトリック手法とノンパラメトリック手法を組み合わせた一般的な微調整手法 RAG (検索拡張生成) を提案しました。この研究では RAG モデルを導入しています。パラメータメモリは事前トレーニングされた seq2seq モデルで、ノンパラメトリックメモリはウィキペディアの高密度ベクトルインデックス (DPR) であり、事前トレーニングされたニューラルリトリーバーを通じてアクセスできます。研究者らは 2 つの RAG スキームを比較しました。1 つは生成されたシーケンス全体で取得される同じ段落を条件とするもの、もう 1 つはタグごとに異なる段落を条件とするものです。言語生成タスクにおいて、研究者らは、RAG モデルによって生成された言語が、最先端の純粋なパラメトリック seq2seq ベースラインモデルによって生成された言語よりも具体的で、多様で、現実的であることを発見しました。

RETRO: 数兆のトークンから取得することで言語モデルのパフォーマンスを向上させる

数兆のトークンから取得して言語モデルを改善する

*著者：Googleディープマインド

*オリジナル：https://arxiv.org/abs/2112.04426

Retrieval-Enhanced Transformer (RETRO) には 2 兆のタグデータベースがあり、GPT-3 や Jurassic-1 よりも 25 倍少ないパラメーターを使用しているにもかかわらず、Pile 上で同等のパフォーマンスを達成します。 RETRO は、フリーズした Bert レトリーバー、微分可能エンコーダー、チャンククロスアテンションメカニズムを組み合わせて、トレーニング中に消費されるデータよりも桁違いに多いデータに基づいてタグを予測します。

自由記述式の質問応答の場合、いくつかのプロンプトを備えたインターネット拡張言語モデルを構築します。

オープンドメインの質問応答のための数ショットプロンプトによるインターネット拡張言語モデル

*著者：Googleディープマインド

*オリジナル：https://arxiv.org/abs/2203.05115

この研究の目的は、大規模言語モデル (LSLM) の独自の少数キュー機能を活用して、事実と最新の情報に基づく際に直面する課題を克服することです。研究者らは、ネットワークベースの言語モデルが、オープンドメインの質問応答において、同様またはさらに大きなモデルサイズのクローズドブックモデルよりも優れたパフォーマンスを発揮したことを発見しました。さらに、複数の検索証拠を使用して複数の回答を生成し、同じ LM によって生成されたスコアを使用して再ランキングすることにより、モデルの推論計算時間が短縮され、それによってパフォーマンスが向上し、少数の LM でのパフォーマンスの低下の問題が軽減されます。。

HyDE: 関連性ラベルを使用しない Zero-Shot 高密度検索

関連性ラベルを使用しない正確なゼロショットの密な検索

*著者：カーネギーメロン大学とウォータールー大学の研究者

*オリジナル：https://arxiv.org/abs/2212.10496

この実験では、HyDE (仮説ドキュメント埋め込み) がまず、命令 (InstructGPT など) に従う言語モデルをガイドして、ゼロショット方式で仮説ドキュメントを生成します。この文書には相関パターンが記載されていますが、架空のものであり、偽りの詳細が含まれている可能性があります。次に、教師なし対比学習エンコーダー (Contriever など) が文書を埋め込みベクトルにエンコードします。このベクトルは、ベクトルの類似性に基づいて同様の実際の文書が取得されるコーパス埋め込み空間内の近傍を識別します。実験では、HyDE がさまざまなタスクや言語において、最先端の教師なしデンスレトリバーである Contriever を大幅に上回り、微調整されたレトリバーに匹敵する強力なパフォーマンスを示すことが実証されました。

FlashAttention: IO-Awareness を備えた正確なアテンションアルゴリズム

Flashアテンション: IO 認識を備えた高速でメモリ効率の高い正確なアテンション

*著者：スタンフォード大学とニューヨーク州立大学の研究者

*オリジナル：https://arxiv.org/abs/2205.14135

FlashAttention は、IO-Awareness を備えた正確なアテンションアルゴリズムであり、タイリングを使用して GPU 高帯域幅メモリ (HBM) と GPU オンチップ SRAM 間のメモリの読み取りおよび書き込みの数を削減します。 Flashアテンションとブロックスパース Flashアテンションは、Transformers でより長いコンテキストを可能にし、より高品質なモデルと革新的な機能を実現します。

入力長の外挿を実現するための線形オフセットに注意してください

トレーニングは短く、テストは長時間: 線形バイアスによる注意により、入力長の外挿が可能

*著者：ワシントン大学やFAIRなどの研究チーム

*オリジナル：https://arxiv.org/abs/2108.12409

研究者らは、よりシンプルで効率的な位置表現方法である ALiBi (Attendee with Linear Biases) を提案しました。これは、長さ 1024 の入力シーケンスで 13 億のパラメーターモデルをトレーニングし、長さ 2048 のモデルを推論できます。入力シーケンス、正弦波位置長さ 2048 の入力シーケンスでトレーニングされた埋め込みモデルは同じパフォーマンスを達成しますが、トレーニング速度は 11% 速く、使用するメモリは 11% 少なくなります。

Codex: コードでトレーニングされた大規模な言語モデルの評価

コード上でトレーニングされた大規模な言語モデルの評価

*著者：OpenAI

*オリジナル：https://arxiv.org/abs/2107.03374

研究者らは、GitHub パブリックコードの微調整に基づいた GPT 言語モデル Codex を導入し、その Python コード記述機能を研究しました。同時に研究者らは、ドキュメントスクリプトから合成されたプログラムの機能的正確さを測定するための新しい評価セットHumanEvalもリリースした。この評価セットでは、Codex は 28.8% の問題を解決しましたが、GPT-3 は 0% を解決し、GPT-J は 11.4% の問題を解決しました。

レイヤーの正規化

レイヤーの正規化

*著者：トロント大学の研究者

*オリジナル：https://arxiv.org/abs/1607.06450

研究者らは、バッチ正規化をレイヤー正規化に変換しました。つまり、単一のトレーニングサンプルでは、レイヤー内のニューロンへのすべての入力の合計の平均と分散を計算することで正規化が実現されます。バッチ正規化とは異なり、レイヤー正規化はトレーニング時とテスト時にまったく同じ計算を実行します。経験上、層の正規化により、以前に公開された手法と比較してトレーニング時間を大幅に短縮できることがわかっています。

Transformer アーキテクチャにおけるレイヤーの正規化

Transformer アーキテクチャにおけるオンレイヤー正規化

*著者：マイクロソフト

*オリジナル：https://arxiv.org/abs/2002.04745

研究者らは、最初に設計されたPost-LN Transformerの初期化段階では、出力層付近のパラメータの予想される勾配が大きく、これに基づいて高い学習率を使用するとトレーニングが不安定になることを平均場理論を通じて証明しました。さらに、Post-LN Transformer にレイヤー正規化を適用すると、初期化時の勾配が良好になります。研究によると、ウォームアップ段階を削除する Pre-LN Transforme は、トレーニング時間とハイパーパラメータ調整を削減しながら、実際のアプリケーションでベースラインと同等の結果を達成できることが示されています。

PPO: 近接ポリシー最適化アルゴリズム

近接ポリシー最適化アルゴリズム

*著者：OpenAI

*オリジナル：https://arxiv.org/abs/1707.06347

研究者らによって提案された PPO (近接ポリシー最適化) は、TRPO (Rust 領域ポリシー最適化) と同様の利点がありますが、より単純でより一般的で、サンプルの複雑さが優れています。研究者らは、さまざまなベンチマークタスクで PPO をテストしました。その結果、PPO が他のオンラインポリシー勾配手法よりも優れたパフォーマンスを示し、サンプルの複雑さ、単純さ、所要時間のバランスが全体的に優れていることがわかりました。

ウィザードコーダー: Evol-Instruct を使用して、大規模な言語モデルをコーディングする能力を強化します。

WizardCoder: Evol-Instruct を使用して大規模言語モデルのコードを強化する

*著者：マイクロソフトと香港バプテスト大学の研究者

*オリジナル：https://arxiv.org/abs/2306.08568

研究者らによって提案された WizardCoder は、Evol-Instruct メソッドをコードドメインに調整することで、Code LLM に複雑な命令の微調整機能を持たせることができます。 HumanEval、HumanEval+、MBPP、DS-1000 の 4 つのコード生成ベンチマークでの実験では、WizardCoder が他のすべてのオープンソースコード LLM を大幅に上回っていることが示されています。さらに、WizardCoder は、HumanEval と HumanEval+ において、Anthropic の Claude や Google の Bard をも上回りました。

Llama 2: オープンな基盤と微調整されたチャットモデル

Llama 2: オープンな基盤と微調整されたチャットモデル

*著者：GenAI、メタ

*オリジナル：https://arxiv.org/abs/2307.09288

Llama 2 は、事前トレーニングされ、微調整された大規模な言語モデルであり、そのサイズは 70 億から 700 億のパラメーターに及びます。研究者らが微調整した LLM は Llama 2-Chat と呼ばれ、会話型アプリケーション向けに最適化されています。この論文では、Llama 2-Chat の微調整とセキュリティ改善に対する研究者のアプローチについて詳しく説明しています。

RWKV: Transformer 時代に向けたリカレントニューラルネットワーク (RNN) の再定義

RWKV: トランスフォーマー時代に向けた RNN の再発明

*著者：EleutherAI、バルセロナ大学、その他の研究チーム

*オリジナル：https://arxiv.org/abs/2305.13048

研究者らは、Transformer の効率的な並列化トレーニングと RNN の効率的な推論を組み合わせた、Receptance Weighted Key Value (RWKV) と呼ばれる新しいモデルアーキテクチャを提案しました。この方法では、線形アテンションメカニズムを利用し、モデルを Transformer または RNN として定式化できるため、トレーニングプロセス中の計算を並列化し、推論プロセス中に一定の計算量とメモリの複雑さを維持できます。研究者らはモデルを 140 億パラメータに拡張し、これまでで最大の高密度 RNN モデルになりました。

RLAIF: 無害な AI フィードバック

AI の憲法: AI フィードバックによる無害性

*著者：人間的

*オリジナル：https://arxiv.org/abs/2212.08073

研究者たちは、自己改善を通じて AI アシスタントを訓練することを試み、この方法を「Constitutional AI」と呼びました。トレーニングプロセスには、教師あり学習と強化学習の 2 つの段階が含まれます。教師あり学習フェーズでは、研究者は初期モデルからサンプリングし、次に自己批判と修正を生成し、最後に修正された応答に基づいて元のモデルを微調整します。

強化学習フェーズでは、研究者は微調整されたモデルからサンプリングし、そのモデルを使用して 2 つのサンプルのどちらが優れているかを評価し、AI の好みのデータセットから好みモデルをトレーニングしました。次に研究者らは、この嗜好モデルを RL トレーニングの報酬信号として使用しました。つまり、「AI フィードバックからの RL (RLAIF)」を使用しました。

非常に大規模なニューラルネットワーク

法外に大規模なニューラルネットワーク: まばらにゲートされた専門家の混合層

*著者：Google Brain (DeepMind と合併)

*オリジナル：https://arxiv.org/abs/1701.06538

研究者らは、最大数千のフィードフォワードサブネットワークで構成されるスパースゲート MoE (Mixture-of-Experts) を導入し、MoE を言語モデリングと機械翻訳タスクに適用しました。これらのタスクでは、トレーニングコーパス内の大量の知識を吸収するためにモデルの能力が重要です。研究者らは、最大 1,370 億のパラメータを持つ MoE が、積層された LSTM 層間で畳み込み適用されるモデルアーキテクチャを提案しました。このモデルは、大規模な言語モデリングと機械翻訳のベンチマークにおいて、低計算コストで最先端のものよりも大幅に優れたパフォーマンスを実現します。

CLIP: 自然言語監視から転移可能な視覚モデルを学習する

自然言語監視から転送可能な視覚モデルを学習する

*著者：OpenAI

*オリジナル：https://arxiv.org/abs/2103.00020

研究者らは、どのタイトルがどの画像に一致するかを予測する事前トレーニングタスク、つまり SOTA の画像表現をゼロから学習するための効率的かつスケーラブルな方法を提案しています。この研究では、インターネットから収集した 4 億組の画像とテキストのデータセットを使用しました。事前トレーニング後、自然言語を使用して学習した視覚的概念を参照 (または新しい概念を説明) することで、下流タスクへのモデルのゼロショット転送が可能になります。

ViT: スケーリングされた画像認識用のトランスフォーマー

画像は 16×16 ワードの価値があります: 大規模な画像認識のためのトランスフォーマー

*著者：Google Research、Brain チーム (DeepMind と合併)

*オリジナル：https://arxiv.org/abs/2010.11929

畳み込み演算の適用には、グローバル構造や長距離依存関係の制限が伴うことが多いため、これらの問題を解決するには、より多くのパラメーターとより深いネットワークが必要になります。研究者らは、Transformer に完全に基づいた ViT (Vision Transformer) と呼ばれる画像認識モデルを提案しました。これは、Transformer の核となるアイデアを採用し、グローバルな情報をキャプチャすることができます。

生成エージェント: 人間の行動のインタラクティブなシミュレーション

生成エージェント: 人間の行動のインタラクティブなシミュレーション

*著者：スタンフォード大学、Google DeepMind 研究者

*オリジナル：https://arxiv.org/abs/2304.03442

生成エージェントを構築するために、研究者らは、大規模な言語モデルを拡張して、自然言語を使用してエージェントの完全な経験記録を保存し、これらの記憶を徐々に高レベルの反映に合成し、行動を計画するためにそれらを動的に取得するアーキテクチャを提案しました。この研究は、大規模な言語モデルをコンピューティングおよびインタラクティブなエージェントと統合し、アーキテクチャとインタラクションパターンを導入することにより、信頼できる人間の行動のシミュレーションを実現します。

DPO: 直接優先最適化アルゴリズム

直接的な好みの最適化: 言語モデルは密かに報酬モデルです

*著者：スタンフォード大学の研究者

*オリジナル：https://arxiv.org/abs/2305.18290

研究者らによって提案された直接優先最適化 (DPO) アルゴリズムは、安定性、効率性、計算量が軽量であり、報酬モデルの適合、LM からのサンプリング、または微調整中に大幅なハイパーパラメータ調整を実行する必要がありません。実験では、DPO が人間の好みに合わせて LM を微調整できることが示されています。実験によれば、DPO を使用した微調整は、生成された感情の制御において RLHF (人間のフィードバックからの強化学習) よりも優れていることが示されています。

一貫性モデル

一貫性モデル

*著者：OpenAI

*オリジナル：https://arxiv.org/abs/2303.01469

本研究で提案する一貫性モデルは、ノイズをデータに直接マッピングすることで高品質なサンプルを生成する新しいモデルです。高速なワンステップ生成をサポートしていますが、計算とサンプル品質をトレードオフするマルチステップサンプリングも可能です。このモデルは、画像のパッチング、カラー化、超解像度などのタスクに関する明示的なトレーニングを必要としないゼロショットデータ編集もサポートしています。

潜在整合性モデル

潜在整合性モデル: 数ステップの推論による高解像度画像の合成

*著者：清華大学研究員

*オリジナル：https://arxiv.org/abs/2310.04378

研究者らによって提案された潜在整合性モデル (LCM) は、安定拡散を含む、事前にトレーニングされた潜在拡散モデル (LDM) に対して最小限のステップで高速推論を実行できます (rombach et al)。実験結果は、事前トレーニングされた分類器を使用しない誘導拡散モデルからの効率的な抽出により、高品質の 768 x 768 2 ～ 4 ステップ LCM を A100 GPU で 32 時間のトレーニングのみで実現できることを示しています。

LCM-LoRA: ユニバーサル安定拡散加速モジュール

LCM-LoRA: 汎用安定拡散加速モジュール

*著者：清華大学、ハグフェイス

*オリジナル：https://arxiv.org/abs/2311.05556

この研究により、LCM の可能性がさらに広がります。まず研究者らは、LoRA を SD-V1.5、SSD-1B、SDXL などの安定拡散モデルに適用することで、LCM の範囲をメモリ消費量の少ない大規模モデルに拡張し、優れた画像生成品質を実現しました。次に、研究者らは、LCM 蒸留によって得られた LoRA パラメータを普遍的な安定拡散加速モジュールとして特定し、それを LCM-LoRA と名付けました。 LCM-LoRA は、トレーニングなしでさまざまな安定拡散微調整モデルまたは LoRA に直接接続できるため、さまざまな画像生成タスクに適した多用途アクセラレーターとなります。

チェーン・オブ・ノート: 検索強化言語モデルの堅牢性の強化

チェーン・オブ・ノート: 検索拡張言語モデルの堅牢性の強化

*著者：テンセントAIラボ

*オリジナル：https://arxiv.org/abs/2311.09210

研究者らによって提案された Chain-of-Noting (CoN) は、ノイズが多く無関係な文書に直面したり、未知のシナリオに対処したりする場合に、検索拡張言語モデル (RALM) の堅牢性を向上させることができます。 CoN は、取得した文書の連続読み取り注釈を生成して、特定の質問との関連性を徹底的に評価し、この情報を最終的な回答を作成するプロセスに統合できます。

大規模言語モデルの新たな機能

大規模言語モデルの創発的な能力

*著者：Google Research、スタンフォード大学、UNC、DeepMind

*オリジナル：https://arxiv.org/abs/2206.07682

研究者らは、大規模な言語モデルの新たな機能を提案し、それらの機能を、トレーニングの計算量とモデルパラメーターの数によって測定される、小規模なモデルには存在しないが、大規模なモデルには存在する機能として定義しました。

Q-Transformer: 自己回帰 Q 関数によるスケーラブルなオフライン強化学習

Q トランスフォーマー: 自己回帰 Q 関数によるスケーラブルなオフライン強化学習

*著者：Googleディープマインド

*オリジナル：https://arxiv.org/abs/2309.10150

研究者らは、人間によるデモンストレーションと大規模なオフラインデータセットからの自律的なデータ収集を活用できる、マルチタスクポリシーをトレーニングするためのスケーラブルな強化学習手法である Q-Transformer を提案しています。この方法では、Transformer を使用して、オフライン時差バックアップを通じてトレーニングされた Q 関数のスケーラブルな表現を提供します。

ラマガード

Llama Guard: 人間と AI の会話のための LLM ベースの入出力セーフガード

*著者：メタGenAI

*オリジナル：https://arxiv.org/abs/2312.06674

Llama Guard は、LLM に基づいた入出力保護モデルであり、Meta によって収集されたデータセット上の Llama2-7b モデルに基づいて微調整されています。データ量は少ないですが、たとえば、既存のベンチマークテストで優れたパフォーマンスを発揮します。 OpenAI モデレーション評価データ。そのパフォーマンスは現在利用可能なコンテンツモデレーションツールと同等またはそれを上回っています。

ReSTEM: ヒューマンデータを超えて

ヒューマンデータを超えて: 言語モデルを使用した問題解決のための自己トレーニングのスケーリング

*著者：Google DeepMind、ミラ

*オリジナル：https://arxiv.org/abs/2312.06585

研究者らは、モデルからサンプルを生成し、バイナリフィードバックを使用してそれらをフィルタリングし、これらのサンプルを微調整してこのプロセスを数回繰り返す、ReSTEMと呼ばれる期待値最大化ベースの自己トレーニング方法を提案しました。 MATH 推論と APPS エンコーディングのベンチマークに PaLM-2 モデルを使用した場合、研究者らは、ReSTEM のパフォーマンスがモデルサイズに直接比例し、人間のデータに対する微調整のみの手法よりも大幅に優れていることを発見しました。

混合エキスパートモデルの詳細説明

*ソース：ハグフェイス

*オリジナル：https://huggingface.co/blog/moe

SPIN: セルフゲーム微調整により、弱い言語モデルが強力な言語モデルに変換されます。

セルフプレイ微調整により弱い言語モデルを強力な言語モデルに変換

*著者：UCLA、清華大学、カリフォルニア大学の研究者

*オリジナル：https://arxiv.org/abs/2401.01335

研究者らは、Self-Play fIne-tuNing (SPIN) と呼ばれる新しい微調整方法を提案しました。その中核となるのはセルフプレイメカニズムです。言語モデルは、前回の反復からトレーニングデータを生成し、これらの自己生成された応答と人間が注釈を付けたデータから取得した応答を区別することで、ポリシーをさらに調整します。

Self-Instruct: 言語モデルと自動生成されたガイダンス言語の調整

Self-Instruct: 言語モデルと自己生成された命令の調整

*著者：ワシントン大学など

*オリジナル：https://arxiv.org/abs/2212.10560

研究者らによって提案された Self-Instruct は、事前トレーニングされた言語モデルによって生成されたコンテンツを使用して、指示に従う能力を向上させることができます。研究者は言語モデルからガイダンス、入力および出力サンプルを生成します。元のモデルの微調整に使用する前に、無効なサンプルや類似のサンプルをフィルタリングして除外します。研究者らはこの手法を GPT-3 に適用し、Super-Natural 命令で検証しました。その結果、元のモデルと比較して 33% の改善が示され、これはプライベートユーザーデータと人間の注釈を使用してトレーニングされた InstructGPT-001 のパフォーマンスに匹敵しました。

公式アカウントをフォローして「LLM Papers」とリプライすると、論文集をパッケージ化してダウンロードできます。

参考文献:

https://eugeneyan.com/writing/llm-reading-list/.

Amazon のエンジニアが厳選した 40 以上の LLM 論文の要約