Command Palette
Search for a command to run...
Aysenur Kocak Shuo Yang Bardh Prenkaj Gjergji Kasneci

要約
事前学習された言語モデルは、多様な応用分野で顕著な成果を上げているが、依然として不適切な概念駆動型相関に脆弱であり、モデルの堅牢性と公平性に悪影響を及ぼしている。本研究では、概念的な便宜的手がかり(conceptual shortcuts)を体系的に分離・抑制しつつ、重要なコンテンツ情報を保持する新しい軽量フレームワーク「CURE」を提案する。本手法は、タスクに必要な情報の損失を最小限に抑えるために、逆転ネットワーク(reversal network)によって強化された専用のコンテンツ抽出器を用いて、概念に依存しない表現を抽出する。その後、制御可能なバイアス除去モジュールが対照学習(contrastive learning)を用いて、残存する概念的ヒントの影響を微調整し、タスクの目的に応じて有害なバイアスを軽減するか、有益な相関を活用するかを柔軟に制御できる。IMDBおよびYelpのデータセットにおいて、3種類の事前学習アーキテクチャを用いて評価した結果、CUREはIMDBでF1スコアにおいて+10ポイント、Yelpでは+2ポイントの絶対的な向上を達成した一方で、計算負荷の増加は最小限に抑えた。本手法は、概念的バイアスに対抗する柔軟かつ非教師ありの基盤を確立し、より信頼性が高く公正な言語理解システムの実現に向けた道筋を示している。