HyperAI超神経
Back to Headlines

大規模言語モデルの位置バイアスを解明:MIT研究者が理論的フレームワークを開発

1日前

大規模言語モデルにおける位置バイアスの解明 MITの研究者たちは、大規模言語モデル(LLM)が文書または会話の初めや終わりに過度に重点を置き、中間部分を疎かにする「位置バイアス」のメカニズムを解明しました。この位置バイアスは、法律家が30ページの宣誓証言から特定のフレーズを検索したり、医療AIが患者データを処理したり、コードアシスタントがプログラム全体を正確に理解したりする際の信頼性低下につながる可能性があります。 研究人员包括MIT数据、系统与社会学院(IDSS)和信息与决策系统实验室(LIDS)的研究生Xinyi Wu、MIT的博士后Yifei Wang,以及电气工程与计算机科学(EECS)副教授Stefanie Jegelka和土木与环境工程教授Ali Jadbabaie。JegelkaとJadbabaieは同时隶属于IDSS和LIDS。研究成果将在国际机器学习会议上发表。 大規模言語モデルは、トランスフォーマーという神経ネットワークの一種を用いて動作します。トランスフォーマーは、文をトークン化し、これらのトークン間の関係を学習することで、次の単語を予測します。アテンションメカニズムは、文脈を理解するために各トークンに他の関連するトークンへ「注目」させる手法ですが、この手法がコンピュータ処理の複雑性を引き起こすことがあります。そのため、エンジニアたちは注意マスキング技術を使用して、トークンが注目できる範囲を制限しています。例えば、因果マスクはトークンが前に現れた単語だけに注目できるように制限します。 MITの研究者たちは、グラフベースの理論的手法を使用して、注意マスキングと位置エンコーディングが位置バイアスにどのように影響を与えるかを解析しました。理論分析では、因果マスクが入力の始めへの位置バイアスを強める可能性があることが示されました。これにより、文章の開始部分に不必要に多くの注目が寄せられることがあります。 さらに、モデルが層を重ねるほど、この位置バイアスは増幅されることがわかりました。なぜなら、初期の部分がモデルの推論過程でより頻繁に使用されるからです。しかし、位置エンコーディングを使用することで、モデルの注目点を適切な位置に戻すことができます。ただし、多くの注意層を持つモデルではこの効果が希薄化することがあります。 研究者は実験を行い、情報検索タスクで正解が文書内のどの位置にあるかを系統的に変化させました。実験の結果、「中間で迷子になる」現象が確認されました。正解が文書の初めにある場合は精度が高い一方、中央に近づくにつれて精度が低下し、最後には若干回復傾向が見られました。U字型パターンと言えます。 この成果は、位置バイアスを軽減するために、注意マスキング技術の変更、注意層の削減、または戦略的な位置エンコーディングの使用が有効であることを示唆しています。「モデル設計選択肢の結果を理論と実験を通じて明らかにすることは、高リスクの用途でのモデル利用に向けて重要なステップです」とJadbabaieは述べています。 研究者たちは今後、位置エンコーディングの影響をより詳しく調査し、位置バイアスを特定の用途で戦略的に利用する方法を探ります。 業界の反応 「これらの研究者たちは、トランスフォーマーモデルのアテンションメカニズムに数学的な明晰さと実世界システムの真髄に触れる洞察を提供してくれました」と、スタンフォード大学計算市場デザインセンターの教授Amin Saberiはコメントしました。「特に因果マスクの使用が、模型の始端に偏倚を生むことの理論的解明は非常に説得力があります。」 Stanford大学のAmin Saberi教授は、「この研究は、トランスフォーマーモデルのアテンションメカニ즘に理論的な視点を提供し、数学的な明瞭さと実世界システムへの影響に関する重要な洞察を結び付けて成功しています」と評価しています。 MITの研究所では、機械学習に関する最新の基礎研究を行うことで、AIテクノロジーの発展に貢献しています。这次研究再次证明了其在这一领域的领先地位。

Related Links