CASS: Nvidia から AMD へのトランスパイルとデータ、モデル、ベンチマーク

私たちはCASS(Cross-Architecture GPU Code Transpilationのための大規模データセットとモデルスイート)を紹介します。これは、ソースレベル(CUDA ↔ HIP)およびアセンブリレベル(Nvidia SASS ↔ AMD RDNA3)のコード変換を対象とした初めての大規模なデータセットとモデルスイートです。このデータセットは、ホストとデバイスにまたがる7万組の検証済みコードペアで構成されており、低レベルGPUコードの移植性における重要な空白を埋めています。このリソースを活用して、私たちはドメイン固有言語モデルであるCASSファミリーを訓練しました。これにより、95%のソース変換精度と37.5%のアセンブリ変換精度を達成し、GPT-4o、Claude、Hipifyなどの商用ベースラインを大幅に上回っています。生成されたコードは85%以上のテストケースでネイティブ性能に匹敵し、実行時間とメモリ動作を保っています。厳密な評価をサポートするために、私たちはCASS-Benchというキュレーションされたベンチマークを導入しました。これは16のGPUドメインにわたる真値実行を含んでいます。すべてのデータ、モデル、評価ツールはオープンソースとして公開され、GPUコンパイラツールやバイナリ互換性、LLMガイドによるハードウェア変換の進歩を促進することを目指しています。データセットとベンチマークは以下のURLで提供されています。https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}}コードは以下のURLで提供されています。https://github.com/GustavoStahl/CASS{blue{GitHub}}