CogVLM2-Llama3- Chinese-Chat-19B をオンラインで実行する
モデル紹介
前世代の CogVLM オープン ソース モデルと比較して、CogVLM2 シリーズのオープン ソース モデルには次の改良点があります。
- TextVQA、DocVQA などの多くのベンチマークが大幅に改善されました。
- 8K コンテンツの長さをサポートします。
- 最大 1344*1344 の画像解像度をサポートします。
- 中国語と英語をサポートするオープンソース モデル バージョンが提供されます。
実行メソッド
- 新しいターミナルページを開く
- コマンドを入力してください
cd CogVLM2/basic_demo
chainlit run web_demo.py --port 8080
プログラムを実行する
- 右側の API アドレスをコピーし、ブラウザで開きます。
- 以下をクリックして画像をアップロードし、テキストプロンプトを入力してください

- Enter を押して回答を生成します
