Liwei Jiang Yuanjun Chai Margaret Li Mickel Liu Raymond Fok Nouha Dziri Yulia Tsvetkov Maarten Sap Alon Albalak Yejin Choi

要約
言語モデル(LM)は、多様で人間らしい創造的コンテンツを生成する際にしばしば困難を抱え、類似した出力に繰り返しさらされることによる人間の思考の長期的均質化という懸念が生じている。しかし、ランダムな数値や名前の生成といった限定的なタスクや、単一モデルからの繰り返しサンプリングを超えた範囲において、LM出力の多様性を評価するスケーラブルな手法は依然として限られている。本研究では、26,000件の多様で現実世界に即したオープンエンド型のユーザークエリから構成される大規模データセット「Infinity-Chat」を紹介する。このデータセットは、単一の正解が存在しない広範な妥当な回答が想定されるクエリを含んでおり、実際の使用状況に即した多様性を反映している。さらに、LMに提示されるオープンエンド型プロンプトの全範囲を体系的に特徴づけるための、初めての包括的な分類体系を提案する。この分類体系は、6つの上位カテゴリ(例:ブレインストーミング・アイデア創出など)から構成され、さらに17のサブカテゴリに細分化されている。Infinity-Chatを用いて、LMにおけるモード崩壊(mode collapse)の包括的調査を実施した結果、LMのオープンエンド生成において顕著な「人工的ハーミンズ(Artificial Hivemind)効果」が明らかになった。この効果は、(1)モデル内での反復性、すなわち単一のモデルが一貫して類似した回答を生成する傾向、および(2)モデル間の均質性、すなわち異なるモデルが著しく類似した出力を生成する傾向という2つの側面で特徴づけられる。また、Infinity-Chatには、各例について25件の独立した人間アノテーションが含まれており、絶対評価とペアワイズ選好の両方の形式で合計31,250件のアノテーションが収録されている。これにより、オープンエンド型クエリに対する人間の集団的および個別的な好みを分析することが可能となる。本研究の結果から、異なる個別的好みを引き出す生成物に対しては、LM、報酬モデル、およびLMジャッジが人間の評価に対して適切にキャリブレーションされていないことが示された一方で、全体的な品質は比較的同等に維持されている。総じて、Infinity-Chatは、現実世界のオープンエンド型クエリに対するLMの挙動を体系的に研究するための初の大規模リソースであり、人工的ハーミンズがもたらす長期的AI安全リスクを軽減するための今後の研究を導く上で、重要な知見を提供する。