這些論文聚焦於視覺生成式 AI 的擴散模型、基於物理的模擬和日益逼真的 AI 驅動渲染。其中包括兩篇榮獲技術最佳論文獎的論文,以及與美國、加拿大、中國、以色列和日本的多所大學和包括 Adobe、Roblox 等公司研究人員的合作。這些研究將有助於創建開發者和企業可用來生成複雜虛擬物體、角色和環境的工具。合成資料生成可以用來講述強大的視覺故事,協助科學家理解自然現象,或輔助機器人和自動駕駛車輛進行模擬訓練。
擴散模型是一種將文字提示轉換為圖像的熱門工具,可以幫助藝術家、設計師和其他創作者快速生成分鏡圖或製作所需的視覺效果,從而減少將想法變為現實所需的時間。NVIDIA 撰寫的兩篇論文正在提升這些生成式 AI 模型的能力。
ConsiStory是 NVIDIA 和特拉維夫大學(Tel Aviv University)研究人員的合作成果,使生成具有一致主角的多張圖片變得更容易,這對於漫畫插圖或分鏡圖等講述故事的應用至關重要。研究人員的方法引入了一種名為主題驅動共享注意力(subject-driven shared attention)的技術,將生成一致圖像所需要的時間從13分鐘縮短到約30秒。
NVIDIA 研究人員去年在 SIGGRAPH 的 Real-Time Live! 活動中,憑藉將文字或圖像提示轉換為客製化紋理素材的 AI 模型贏得了最佳展示獎。今年,他們將提出一篇論文,該論文將 2D 生成式擴散模型應用於 3D 網格上的互動紋理繪製,使藝術家能夠基於任何參考圖像即時繪製複雜的紋理。
圖形學研究人員正透過基於物理的模擬技術縮小實物與其虛擬形式之間的差距,這是一系列使數位物體和角色能夠像在現實世界中一樣移動的技術。多篇 NVIDIA Research的論文都介紹了在該領域的突破,其中包括 SuperPADL,該計畫旨在解決基於文字提示模擬複雜人類動作的挑戰。
研究人員結合強化學習和監督學習,示範如何訓練 SuperPADL 框架來重現 5,000 多種技能的動作,並且可以在消費級的 NVIDIA GPU 上即時運行。
另一篇 NVIDIA 論文展示了一種神經物理方法,該方法應用 AI 來學習物體在環境中移動時的行為,這包括無論是 3D 網格、NeRF 還是由文本生成的 3D 模型所表示的實體物體。
與卡內基美隆大學(Carnegie Mellon University)研究人員合作撰寫的一篇論文開發了一種新型渲染器,這種渲染器能進行熱分析、靜電學和流體力學,而不是模擬物理光。該論文被評為 SIGGRAPH 的五篇最佳論文之一,易於平行化,且不需要繁瑣的模型清理,為加速工程設計周期提供了新機會。
NVIDIA 撰寫的另一組論文介紹了新技術,這些技術可將可見光建模速度提高 25 倍,並將模擬繞射效果的速度提高 1,000 倍,如用於訓練自動駕駛汽車的雷達模擬中使用的繞射效果。
NVIDIA 和滑鐵盧大學(University of Waterloo)研究人員發表的一篇論文探討了自由空間繞射,這是一種光在物體邊緣擴散或彎曲的光學現象。該團隊的方法可以與路徑追蹤工作流程整合,以提高複雜場景中模擬繞射的效率,最高可加速達 1,000 倍。除了渲染可見光之外,該模型還可用於模擬雷達、聲波或無線電波的較長波長。
路徑追蹤(Path tracing)透過取樣多條路徑,也就是穿過場景的多次反射光線,以創建逼真的圖片。兩篇 SIGGRAPH 論文改善了 ReSTIR 的採樣品質,ReSTIR 是 NVIDIA 和達特茅斯學院(Dartmouth College)研究人員在 SIGGRAPH 2020 上首次推出的路徑追蹤演算法,是將路徑追蹤引入遊戲和其他即時渲染產品的關鍵。
其中一篇與猶他大學(University of Utah)合作的論文分享了一種重複利用計算路徑的新方法,該方法可將有效樣本數量增加多達 25 倍,從而顯著提高圖像品質。另一種方法是透過隨機轉變光線路徑的子集來提高樣本品質。這有助於去噪演算法更好地執行,從而在最終渲染中產生更少的視覺假影。
NVIDIA 研究人員也在 SIGGRAPH 上展示了用於 3D 表現和設計的多用途AI 工具。
其中一篇論文介紹了fVDB,這是一個針對 3D 深度學習的GPU 最佳化框架,能夠達到現實世界相同的規模。 fVDB框架為城市規模3D模型和NeRF 的大空間規模和高解析度,以及大規模點雲的分割和重建提供了AI基礎設施。與達特茅斯學院研究人員合作撰寫的最佳技術論文獎得主介紹了一種表示 3D 物體如何與光互動的理論。該理論將多種外觀統一到一個模型中。
與東京大學(University of Tokyo)、多倫多大學(University of Toronto)和 Adobe Research 合作推出了一種演算法,可以在 3D 網格上即時產生平滑的空間填充曲線。以前的方法需要幾個小時,而該框架只需幾秒鐘即可運行,並讓使用者能高度控制產出成果,以實現互動式設計。