17日前
OnDev-LCT:フェデレーテッドラーニングにおけるデバイス内軽量畳み込み型トランスフォーマー
Chu Myaet Thwal, Minh N.H. Nguyen, Ye Lin Tun, Seong Tae Kim, My T. Thai, Choong Seon Hong

要約
フェデレーテッドラーニング(FL)は、プライバシーを保ちながら複数のエッジデバイス上で機械学習モデルを共同で訓練する有望なアプローチとして注目されている。FLの成功は、参加するモデルの効率性および分散学習に特有の課題に対応する能力にかかっている。近年、視覚変換器(ViT)のいくつかのバリエーションが、集中型学習における現代的な畳み込みニューラルネットワーク(CNN)の代替として大きな可能性を示しているが、その膨大なサイズと高い計算要求は、リソース制約の厳しいエッジデバイスへの展開を困難にしている。FLにおけるクライアントデバイスは通常、計算リソースおよび通信帯域幅に制限があるため、こうした環境向けのモデルは、モデルサイズ、計算効率、そしてFLで頻発する多様かつ非IID(非独立同分布)なデータ分布への適応能力の間でバランスを取る必要がある。こうした課題に対処するため、本研究では、限られた学習データおよびリソース環境下でのオンデバイス視覚タスクを想定した軽量型畳み込み変換器「OnDev-LCT」を提案する。本モデルは、残差線形ボトルネックブロック内での効率的な深度方向分離畳み込みを活用し、LCTトークナイザーを通じて画像固有の誘導的バイアスを導入することで局所特徴を抽出する。一方、LCTエンコーダーにおけるマルチヘッド自己注意機構(MHSA)は、画像のグローバル表現を間接的に捉えることを可能にする。ベンチマーク画像データセットを用いた広範な実験の結果、本モデルは既存の軽量視覚モデルを上回る性能を発揮しつつ、パラメータ数が少なく、計算負荷も低いため、データの非均一性や通信ボトルネックが顕著なFL環境においても適した選択肢となることが示された。