11日前
多様性と識別性を備えた表現学習:最大符号化レート低減の原理に基づく
Yaodong Yu, Kwan Ho Ryan Chan, Chong You, Chaobing Song, Yi Ma

要約
高次元データからクラス間を最も特徴付ける内在的な低次元構造を学習するため、本研究では情報理論的な尺度である「最大符号化レート減少の原理(Maximal Coding Rate Reduction: MCR²)」を提案する。この原理は、全体データセットと各個別クラスの和との間における符号化レートの差を最大化することを目的としている。MCR²が交差エントロピー、情報ボトルネック、情報ゲイン、コントラクティブ学習およびコントラスティブ学習といった既存の主要な枠組みとの関係を明確にし、多様かつ判別性の高い特徴の学習に対して理論的な保証を提供する。符号化レートは、退化部分空間型分布の有限サンプルから正確に計算可能であり、教師あり、自己教師あり、教師なしの設定において、一貫した枠組みで内在表現を学習することが可能である。実証的な評価では、この原理のみを用いて学習した表現は、交差エントロピーを用いた場合に比べてラベルノイズに対して著しく堅牢であり、自己学習された不変特徴から得られる混合データのクラスタリングにおいて、最先端の性能を達成することが示された。