3ヶ月前

概要

ニューラルコードインテリジェンスの範囲は、テキストベースのソースコードにとどまらず、プログラムが生成する豊かな視覚的出力へと急速に拡大しつつある。この視覚的次元は、柔軟なコンテンツ生成や、視覚的表現に対するプログラム駆動型の精密編集といった高度な応用において不可欠である。しかしながら、高品質なマルチモーダルコードデータの不足が、合成と品質評価の難しさに起因するブottleneckを引き起こしており、その進展が阻害されてきた。本研究では、データとモデリングの両面から貢献を行う。まず、データモダリティ間の相互的相乗効果を活用して、標準的なチャートから複雑なインタラクティブなWeb UI、およびコード駆動型のアニメーションに至るまで、大規模かつ高品質なコーパスを効率的に生成する完全な合成ツールキットを提案する。このツールキットを基に、これまでで最大規模のマルチモーダルコードコーパス「JanusCode-800K」を構築した。このコーパスを活用して、テキスト指示、視覚入力、または両者の組み合わせからコードを生成するための視覚的・プログラム的インターフェースを実現するモデル「JanusCoder」と「JanusCoderV」を訓練した。本研究で提案する統合型モデルは、個別のタスクに特化したモデルを個別に構築する従来のアプローチとは一線を画している。テキスト中心および視覚中心の両方のコーディングタスクにおいて、広範な実験を実施した結果、JanusCoderシリーズが優れた性能を示すことが確認された。特に、7B～14B規模のモデルは、商用モデルと同等、あるいはそれ以上の性能に達している。さらに、プログラム論理とその視覚的表現の調和に関する重要な知見が、広範な分析から得られた。本研究で開発したコードとモデルのチェックポイントは、https://github.com/InternLM/JanusCoder にて公開される。

ソースPDF