黃仁勳指出,生成式 AI 普及,推論成為競爭主戰場。每次模型回應使用者提示,都需大量 Token 運算,考驗算力與成本調度。Dynamo 作為 Triton Server 接班人,進一步提升系統效率與靈活度。他強調:「Dynamo 幫助 AI 工廠大規模服務客製化模型,節省成本,加速推論走向主流。」

黃仁勳解釋,「Dynamo」名稱取自工業革命時期的發電機,象徵 AI 運算的革命性力量。黃仁勳表示,Dynamo 是開放式 AI 運作系統,將促進更多合作。Dynamo 已在超級電腦環境測試,展現顯著成果。以相同 GPU 數量,在 Hopper 平台運行 Llama 模型時,效能與營收提升兩倍;在 GB200 NVL72 機架叢集運行 DeepSeek-R1 模型時,單顆 GPU Token 產出提高超過 30 倍。

Dynamo 核心是分散式架構,將 LLM 推論的「處理」與「產生」分散到不同 GPU 執行,針對不同階段最佳化配置。搭配四大創新技術,包括 GPU 規劃器、智慧路由器、低延遲通訊函式庫與記憶體管理器,提升資源運用效率。GPU 規劃器可依需求動態調整 GPU 數量,智慧路由器降低重複運算,低延遲通訊庫提升 GPU 間傳輸效率,記憶體管理器則優化資源占用,保持穩定體驗。

Dynamo 完全開源,支援 PyTorch、SGLang、TensorRT-LLM、vLLM 等開發框架,降低企業與研究機構部署 AI 模型的門檻。AWS、Google Cloud、Microsoft Azure、Meta、Cohere、Perplexity、Together AI 等已將 Dynamo 納入推論架構,生態系逐步擴展。

Perplexity AI 技術長 Denis Yarats 表示,他們每月處理億次級 AI 查詢,Dynamo 分散式設計有助提升擴充性與可靠性。Cohere 則計畫利用 Dynamo 強化其 Command 系列模型的代理型 AI 功能,工程部門資深副總裁 Saurabh Baji 指出,Dynamo 滿足高階模型所需的精密調度與低延遲通訊。Together AI 技術長張策也透露,已將 Together Inference Engine 整合 Dynamo 架構,以提升推論效率並突破資源瓶頸。

技術層面,Dynamo 將 KV 快取映射至數千顆 GPU,依據請求知識匹配程度動態分配,避免重複運算,提升整體效率。此設計帶來高彈性與擴展性,協助企業以更少資源滿足大量推論需求。

Dynamo未來將整合至 NVIDIA NIM 微服務與 AI Enterprise 軟體平台,提供企業級安全性、技術支援與穩定性。黃仁勳預期,Dynamo 將成為推論領域關鍵基礎設施,助 AI 工廠在生成式 AI 熱潮下,進一步提升運營效率與獲利能力。


點擊閱讀下一則新聞 點擊閱讀下一則新聞
國泰金控舉辧金融業最具規模健走 報名即抽Apple Watch還有「友善毛孩禮」