NVIDIA表示,訓練大型語言模型(LLM)是個難題,不過即時提供由 LLM 支援的服務同樣不易。在最新一輪的MLPerf 產業基準:Inference v4.1中,NVIDIA 平台在各項資料中心測試項目裡皆寫下領先成績。即將推出的 NVIDIA Blackwell 平台由於使用第二代 Transformer引擎與 FP4 Tensor 核心,在處理 MLPerf 最大的 LLM 工作量 Llama 2 70B 之際,首次測試的結果顯示其效能較 NVIDIA H100 Tensor Core GPU架構高出四倍之多。
NVIDIA H200 Tensor 核心 GPU 在資料中心類別的各項測試裡均有著出色表現,包括基準中最新加入有著467億個參數、每個token有129億個活躍參數的 Mixtral 8x7B 混合專家(MoE)LLM。
MoE模型能夠在單一部署中回答各式各樣的問題與執行更多不同的任務,讓使用者有更多種部署 LLM 的方式而大受歡迎。MoE的效率也更高,因其每次進行推論作業只要啟動幾個專家,代表提供結果的速度比類似大小的密集模型要快上不少。
LLM持續成長,讓使用者需要有更多運算能力來處理推論請求。多 GPU 運算的能力已成為必須,以滿足當前運行 LLM 的即時延遲需求,還有盡量讓最多的使用者享受這項服務。NVIDIA NVLink 和 NVSwitch 可在基於 NVIDIA Hopper 架構的 GPU 之間以高頻寬溝通,並為當今即時、具成本效益的大型模型推論作業帶來顯著優勢。而 Blackwell 平台加上有著 72 個 GPU 更大規模的 NVLink 網域,將進一步擴展 NVLink Switch 的功能。
除了 NVIDIA 有提出測試資料,華碩、思科、戴爾科技、富士通、技鋼科技、慧與科技、瞻博網路、聯想、雲達科技和美超微等十家 NVIDIA 的合作夥伴,同樣都有提出可靠的 MLPerf Inference 測試資料,突顯出 NVIDIA 平台廣泛的可供性。
在最新一輪的推論測試裡,包括 NVIDIA Hopper 架構、NVIDIA Jetson平台與 NVIDIA Triton 推論伺服器在內的 NVIDIA 產品,在效能方面均大幅提升。與上一輪的成績相比,NVIDIA H200 GPU在處理生成式 AI 推論時的效能提高了 27%,突顯出客戶在投資 NVIDIA 平台方面所帶來的長期附加價值。
隸屬於 NVIDIA AI 平台的 Triton 推論伺服器可搭配 NVIDIA AI Enterprise 軟體使用,是一款功能齊全的開源推論伺服器,可協助組織將特定框架的推論伺服器整合至功能一個統一的的平台上。此舉有助於降低在生產環境裡運行 AI 模型的總持有成本,且將部署模型的時間從幾個月縮短到幾分鐘。
在這一輪 MLPerf 測試中,Triton推論伺服器的效能達到幾乎等同於 NVIDIA 裸機的測試結果,顯示企業無需再於使用功能豐富的生產級 AI 推論伺服器,與達到高峰吞吐量效能之間做出選擇。
當生成式AI模型部署在邊緣時可以將影像和視訊等感測器資料,轉換成具有強大情境意識的、即時和可執行的見解內容。用於邊緣AI和機器人的NVIDIA Jetson平台具有獨特的能力,可以運行任何類型的本地端模型,包括LLM、視覺Transformer模型及Stable Diffusion。
這一輪 MLPerf 基準測試中,NVIDIA Jetson AGX Orin 系統模組在處理 GPT-J LLM 工作負載方面,表現較上一輪測試的傳輸量提高 6.2 倍,延遲表現則改善 2.4 倍。這個擁有 60 億個參數的模型能夠協助改造邊緣的生成式 AI。使用者現在可以藉由這個通用模型,在邊緣與人類語言流暢進行互動,無需針對特定用例進行開發。
這一輪 MLPerf Inference 測試結果顯示 NVIDIA 平台從資料中心到邊緣,都展示出其多元用途特色及領先的效能表現,在所有基準工作負載上驅動各種最創新的 AI 應用與服務。歡迎閱讀技術部落格,了解這次測試結果的細節。
搭載 H200 GPU的系統即日起由第一家宣布正式推出的雲端服務供應商 CoreWeave,以及華碩、戴爾、慧與科技、雲達科技和美超微等伺服器製造商提供。