AIとグラフィックスのパフォーマンスを高速化
ASUSは数少ないNVIDIA OVXサーバーシステムプロバイダーであるとともに、技術の溝を埋め、お客様に最適なソリューションを提供する知識と能力を備えた経験豊富で信頼できるAIソリューションプロバイダーです。
当社をお選びいただくために、当社のニュース、メディア、イベント情報、ストーリーをご覧ください。
ASUSは数少ないNVIDIA OVXサーバーシステムプロバイダーであるとともに、技術の溝を埋め、お客様に最適なソリューションを提供する知識と能力を備えた経験豊富で信頼できるAIソリューションプロバイダーです。
準備期間を短縮
A100と比較して性能が2倍向上
高性能なAIとグラフィックス
LLMファインチューニング
4 時間
GPT-175B 860Mトークン
LLM推論
1.1倍
HGX A100との性能比較
AI推論
1.5倍
A100 80GM SXM2との性能比較
L40S | A100 80GB SXM | |
---|---|---|
最適な用途 | 生成AI向けユニバーサルGPU | 最高性能のマルチノードAI |
GPUアーキテクチャ | NVIDIA Ada Lovelace | NVIDIA Ampere |
FP64 | N/A | 9.7 TFLOPS |
FP32 | 91.6 TFLOPS | 19.5 TFLOPS |
RTコア | 212 TFLOPS | N/A |
TF32 Tensorコア | 366 TFLOPS | 312 TFLOPS |
FP16/BF16 Tensorコア 7 | 733 TFLOPS | 624 TFLOPS |
FP8 Tensorコア | 1466 TFLOPS | N/A |
INT8 Tensorコア | 1466 TOPS | 1248 TFLOPS |
GPUメモリ | 48 GB GDDR6 | 80 GB HBM2e |
GPUメモリ帯域幅 | 864 GB/s | 2039 GB/s |
L2キャッシュ | 96 MB | 40 MB |
メディアエンジン | 3 NVENC(+AV1) 3 NVDEC 4 NVJPEG |
0 NVENC 5 NVDEC 5 NVJPEG |
電力 | 最大350W | 最大400W |
フォームファクタ | 2スロット FHFL | 8-way構成HGX |
インターコネクト | PCle Gen4 x 16: 64 GB/s | PCle Gen4 x 16: 64 GB/s |
既存モデルのファインチューニング (860Mのトークンのトレーニングに要する時間) |
|||
---|---|---|---|
TE/FP8により期待される高速化 | |||
HGX A100 | L40S | HGX H100 | |
GPT-40B LoRA (8 GPU) | 12時間 | 1.7倍 | 4.4倍 |
GPT-175B LoRA (64 GPU) | 6時間 | 1.6倍 | 4.3倍 |
小規模モデルのトレーニング (10Bのトークンのトレーニングに要する時間) |
|||
---|---|---|---|
TE/FP8に予測される高速化 | |||
HGX A100 | L40S | HGX H100 | |
GPT-7B (8 GPU) | 12時間 | 1.7倍 | 4.4倍 |
GPT-13B (8 GPU) | 6時間 | 1.6倍 | 4.3倍 |
基盤モデルのトレーニング (300Bのトークンのトレーニングに要する時間) |
|||
---|---|---|---|
TE/FP8により予測される高速化 | |||
HGX A100 | L40S | HGX H100 | |
GPT-175B (256 GPU) | 64時間 | 1.4倍 | 4.5倍 |
GPT-175B (1K GPU) | 16時間 | 1.3倍 | 4.6倍 |
GPT-175B (4K GPU) | 4時間 | 1.2倍 | 4.1倍 |
GPU × 8、4U、デュアルソケット第4世代 Xeon® スケーラブルCPU
GPU × 4、2U、デュアルソケット第4世代 Xeon® スケーラブルCPU
GPU × 4、2U、デュアルソケット第3世代 Xeon® スケーラブルCPU
GPU × 8、4U、デュアルソケットEPYC 9004 CPU、PCIe 5.0スイッチソリューション
GPU × 8、4U、デュアルソケットEPYC 7003 CPU
GPU × 4、2U、シングルソケットEPYC 9004 CPU
GPU × 4、2U、シングルソケットEPYC 9004 CPU