據路透社報導,12位AI科學家、研究員和投資人透露,這些新技術已經應用於OpenAI最新發布的o1模型中,顯示出對AI行業「擴大規模」策略的挑戰。傳統上,AI公司通過增加數據量和計算能力來提升模型表現,但這種做法逐漸顯現出瓶頸。
前開放人工智慧研究中心(OpenAI)聯合創始人、現任超智慧(safe superintelligence)實驗室負責人的蘇茨克弗(Ilya Sutskever)表示,過去幾年,依靠大量無標註數據進行預訓練的方式逐漸失去效果。他強調,「2010年代是規模擴大的時代,現在我們回到了探索與發現的時代。找到正確的擴展方法比以往更重要」。
目前AI實驗室內部已經面臨模型訓練延誤和結果不如預期的情況。據知情人士透露,訓練大型語言模型的成本可達數千萬美元,並涉及大量芯片同步運行。然而,硬體故障頻發,訓練過程耗時數月,最終結果不確定。此外,隨著模型對大量數據的需求增加,全球易於獲取的數據資源已幾近耗盡,電力短缺問題也對訓練造成阻礙。
為應對這些挑戰,研究人員正探索「智慧演算」(test-time compute)技術,增強模型在推理階段的表現。這一方法允許AI在做出決策前評估多個選項,選擇最佳方案。據OpenAI研究員布朗(Noam Brown)在10月於舊金山舉辦的TED AI大會上表示,智慧演算讓模型在特定任務上表現出色,提升效果相當於將模型規模擴大10萬倍。
OpenAI的新模型「o1」(曾稱為Q-star與Strawberry)已採用此技術,使模型能進行多步推理,模仿人類的思維過程。公司也計畫在未來的更大型基礎模型中應用這一技術。
據知情人士透露,除OpenAI外,Anthropic、xAI與Google DeepMind等頂級AI實驗室也在研發類似技術。OpenAI公司在10月的一次技術大會上表示:「我們看到很多可以快速改進的機會,等到其他人追上來時,我們會再領先三步」。
這一趨勢可能改變AI硬體需求格局。目前Nvidia的AI芯片在訓練市場佔據主導地位,但在推理市場可能面臨更多競爭。Nvidia指出,公司對新技術的需求保持樂觀,其最新AI芯片Blackwell的需求量非常高。Nvidia執行長黃仁勳上個月在印度一場會議上稱,「我們發現了推理階段的第二擴展法則,這為Blackwell的需求帶來了巨大提升」。