加速 AI 與圖形處理效能
ASUS 是 NVIDIA OVX 伺服器系統的指定供應商,也是經驗豐富且值得信賴的 AI 解決方案供應商,能利用其專業知識和能力消除技術鴻溝,為客戶提供最佳化解決方案。
ASUS 是 NVIDIA OVX 伺服器系統的指定供應商,也是經驗豐富且值得信賴的 AI 解決方案供應商,能利用其專業知識和能力消除技術鴻溝,為客戶提供最佳化解決方案。
較短的交貨期
效能比 A100 高出 2 倍
強大的 AI 與圖形處理
微調 LLM
4 小時
GPT-175B 860M Tokens
LLM 推論
1.1 倍
與 HGX A100 效能比較
AI 推論
1.5 倍
與 A100 80GM SXM2 效能比較
L40S | A100 80GB SXM | |
---|---|---|
最適合用於 | 生成式 AI 的通用 GPU | 最高效能的多節點 AI |
GPU 架構 | NVIDIA Ada Lovelace | NVIDIA Ampere |
FP64 | 不適用 | 9.7 TFLOPS |
FP32 | 91.6 TFLOPS | 19.5 TFLOPS |
RT 核心 | 212 TFLOPS | 不適用 |
TF32 Tensor 核心 | 366 TFLOPS | 312 TFLOPS |
FP16/BF16 Tensor 核心 | 733 TFLOPS | 624 TFLOPS |
FP8 Tensor 核心 | 1466 TFLOPS | 不適用 |
INT8 Tensor 核心 | 1466 TOPS | 1248 TFLOPS |
GPU 記憶體 | 48 GB GDDR6 | 80 GB HBM2e |
GPU 記憶體頻寬 | 864 GB/s | 2039 GB/s |
L2 快取 | 96 MB | 40 MB |
媒體引擎 | 3 NVENC (+AV1) 3 NVDEC 4 NVJPEG |
0 NVENC 5 NVDEC 5 NVJPEG |
功率 | 最高 350 瓦 | 最高 400 瓦 |
外型尺寸 | 雙插槽 FHFL | 8 卡 HGX |
互連介面 | PCle Gen4 x 16:64 GB/s | PCle Gen4 x 16:64 GB/s |
微調現有模型 (訓練 860M Tokens 的時間) |
|||
---|---|---|---|
TE/FP8 的預期加速 | |||
HGX A100 | L40S | HGX H100 | |
GPT-40B LoRA (8 GPU) | 12 小時 | 1.7 倍 | 4.4 倍 |
GPT-175B LoRA (64 GPU) | 6 小時 | 1.6 倍 | 4.3 倍 |
訓練小型模型 (訓練 10B Tokens 的時間) |
|||
---|---|---|---|
TE/FP8 的預期加速 | |||
HGX A100 | L40S | HGX H100 | |
GPT-7B (8 GPU) | 12 小時 | 1.7 倍 | 4.4 倍 |
GPT-13B (8 GPU) | 6 小時 | 1.6 倍 | 4.3 倍 |
訓練基礎模型 (訓練 300B Tokens 的時間) |
|||
---|---|---|---|
TE/FP8 的預期加速 | |||
HGX A100 | L40S | HGX H100 | |
GPT-175B (256 GPU) | 64 小時 | 1.4 倍 | 4.5 倍 |
GPT-175B (1K GPU) | 16 小時 | 1.3 倍 | 4.6 倍 |
GPT-175B (4K GPU) | 4 小時 | 1.2 倍 | 4.1 倍 |
8 GPU、4U、雙插槽第 4 代 Intel Xeon 可擴充 CPU
4 GPU、2U、雙插槽第 4 代 Intel Xeon 可擴充 CPU
4 GPU、2U、雙插槽第 3 代 Intel Xeon 可擴充 CPU
8 GPU、4U、雙插槽 EPYC 9004 CPU PCIe 5.0 交換器解決方案
8 GPU、4U、雙插槽 EPYC 7003 CPU
4 GPU、2U、單插槽 EPYC 9004 CPU
4 GPU、2U、單插槽 EPYC 9004 CPU