NVIDIA表示,已經在25日舉行三場教學活動,內容涵蓋混合式液冷技術解決方案如何協助資料中心轉換成為更節能的基礎設施,以及包括大型語言模型(LLM)驅動的代理等AI 模型如何協助工程師設計新一代處理器。NVIDIA Blackwell 演講活動將於 8 月 26 日(週一)登場,當中將重點介紹新的架構細節,以及在 Blackwell 晶片上執行生成式 AI 模型的範例。
這些內容共同展現出 NVIDIA 工程師如何在資料中心運算與設計的每個領域進行創新,以提供前所未有的效能、效率與最佳表現。
眾所矚目的下一代Blackwell架構,NVIDIA表示,Blackwell是全堆疊運算的終極挑戰由多種 NVIDIA 晶片組成,包括 Blackwell GPU、Grace CPU、BlueField 資料處理單元、ConnectX 網路介面卡、NVLink Switch、Spectrum 乙太網路交換器和 Quantum InfiniBand 交換器。
NVIDIA 架構總監 Ajay Tirumala 與 Raymond Wong 將率先介紹 Blackwell 平台,並且解釋這些技術如何相互配合,在提高能源效率之際,又寫下 AI 與加速運算效能的全新標準。
NVIDIA GB200 NVL72 解決方案就是完美的例子。LLM 推論作業需要低延遲、高輸送量的詞元產出。GB200 NVL72 可以統掌全局,將 LLM 工作負載的推論速度提高 30 倍,能夠即時執行有著上兆個參數的模型。
Tirumala 與 Wong 還將討論 NVIDIA Quasar Quantization系統如何支援讓低精準度模型達到高精確度,並且重點介紹使用 LLM 與視覺生成式 AI 的範例。這個系統結合演算法創新、NVIDIA 軟體庫與工具,以及 Blackwell 第二代 Transformer 引擎。
隨著研究人員開發出結合氣冷與液冷的混合式冷卻技術,以更有效率且更符合永續精神的方式解決資料中心過去面臨的冷卻問題,以前使用氣冷式技術所發出的嗡嗡聲或許會從此消失。NVIDIA說明,液冷技術比氣冷技術可以更有效率地將熱度從系統中帶走,使得運算系統在處理大量工作負載時同樣能保持低溫。而與氣冷系統相比,液冷設備佔用的空間更小,用電量也更少,這麼一來資料中心便能加入更多伺服器機架,以提高運算能力。
NVIDIA 資料中心冷卻與基礎設施部門總監 Ali Heydari 將介紹數種設計採用混合式冷卻技術資料中心的方式。
部分設計是將現有的氣冷式資料中心改為使用液冷式裝置,以簡單方便的方式為現有機架加入液冷功能。其他設計則需要安裝管道,以便使用冷卻液分配裝置或將伺服器完全浸入冷卻槽,以液冷方式直接冷卻晶片。這些選項雖然一開始要投入較大金額,卻能大幅節省能源消耗量和營運成本。
Heydari 還將分享他的團隊在進行美國能源部開發先進資料中心冷卻技術 COOLERCHIPS 計畫的部分研究成果。該團隊在這項計畫中使用 NVIDIA Omniverse 平台來建立有著物理根據的數位孿生模型,這將有助於他們模擬能源消耗情況和冷卻效率,以設計出最佳的資料中心。
在極小的方寸之間要設計半導體,可謂一項艱鉅難題。開發尖端處理器的工程師要在幾英吋寬的晶片上盡量塞入最大的運算能力,簡直就是在測試物理上可能達到的極限。
AI 模型可以提高設計品質和生產力,提高人工作業流程的效率,自動執行一些耗時的工作,以支援工程師的工作。這些模型包括協助工程師快速分析和改善設計的預測和最佳化工具,以及可以協助工程師回答問題、產生程式碼、執行設計除錯等作業的 LLM。
NVIDIA 設計自動化研究部門總監 Mark Ren 將在教學活動中簡單介紹這些模型及其用途。而他在第二場活動中,將重點介紹如何使用以代理為基礎的 AI 系統來協助設計晶片。
LLM驅動的 AI 代理能接受指導後自主完成任務,這樣就能在各行各業中創造出更多的應用方式。NVIDIA 研究人員正在開發以代理為基礎的系統來協助設計微處理器,這些系統能夠使用自訂的電路設計工具進行推論並採取行動、與經驗豐富的設計人員互動,並且從人類與代理的經驗資料庫中學習。
NVIDIA 的專家們不只是開發,自己也使用這項技術。Ren 將分享工程師如何使用 AI 代理進行時序報告分析、單元叢集最佳化(cell cluster optimization)流程和產生程式碼的範例。單元叢集最佳化的研究成果日前在第一屆 IEEE LLM 輔助設計國際研討會(IEEE International Workshop on LLM-Aided Design)中獲得最佳論文獎。