當(dāng)AI成為整個(gè)科技界的主旋律時(shí),算力拉開黃金大幕。
最大GPU提供商英偉達(dá),業(yè)績暴漲,市值屢創(chuàng)新高。就在全世界都矚目英偉達(dá)如何繼續(xù)打造GPU帝國時(shí),英偉達(dá)CEO黃仁勛卻在剛剛舉辦的GTC 2024上公開表示:“我們要做AI Foundry,就像臺(tái)積電在整個(gè)半導(dǎo)體供應(yīng)鏈所處的位置一樣,我們要做整個(gè)AI產(chǎn)業(yè)的代工廠?!?/p>
對(duì)標(biāo)臺(tái)積電對(duì)整個(gè)半導(dǎo)體產(chǎn)業(yè)的價(jià)值邏輯,來看英偉達(dá)對(duì)整個(gè)AI產(chǎn)業(yè)的布局,這會(huì)開啟更廣闊的未來嗎?
AI代工廠:英偉達(dá)的新故事
臺(tái)積電以芯片代工模式進(jìn)入全球半導(dǎo)體市場(chǎng)以來,每年以高額資本支出投入研發(fā)和先進(jìn)制程技術(shù)。2023年,臺(tái)積電一舉成為全球營收最高的半導(dǎo)體公司,在它身上,充分展現(xiàn)了芯片代工優(yōu)于對(duì)手的顯著優(yōu)勢(shì),以及精準(zhǔn)業(yè)務(wù)模式長期做功的影響力。
再來看黃仁勛的最新定位,英偉達(dá)兩萬億的市值新高度,也需要他繼續(xù)引領(lǐng)轉(zhuǎn)型和尋求更大的愿景空間。
在黃仁勛的全球媒體會(huì)上,<與非網(wǎng)>就“AI代工廠的長期目標(biāo)和策略”進(jìn)一步尋求了他的解讀。黃仁勛表示:“AI代工廠的目標(biāo)就是要構(gòu)建軟件AI,而不是把軟件當(dāng)做工具。很久以前,英偉達(dá)就創(chuàng)立了兩個(gè)重要的軟件,一個(gè)是Optics,也就是后來的RTX;另一個(gè)是cuDNN,這是一個(gè)AI庫。”
黃仁勛提到的這兩款軟件——RTX奠定了英偉達(dá)在專業(yè)視覺計(jì)算領(lǐng)域的地位,cuDNN(NVIDIA CUDA深度神經(jīng)網(wǎng)絡(luò)庫)則成為深度學(xué)習(xí)研究和框架開發(fā)實(shí)現(xiàn)高性能GPU加速的利器。
作為一家GPU芯片起家的硬件公司,英偉達(dá)身上的軟件色彩一直很濃厚,多種多樣的庫(library)造就了英偉達(dá)在軟件領(lǐng)域的根基。面向未來,黃仁勛又將如何構(gòu)建軟件AI的基礎(chǔ)?
黃仁勛認(rèn)為,“未來的庫應(yīng)該是微服務(wù)(Microservice)。因?yàn)槲磥淼膸觳粌H用數(shù)學(xué)描述,還可以用AI來描述。從命名上,過去的庫是一系列的CU,比如CuLitho、CuDNN等,未來則會(huì)是一系列的NIM,它們是使用NVIDIA庫的一種新方法?!?/p>
而之所以構(gòu)建微服務(wù),是因?yàn)辄S仁勛看到了企業(yè)推理業(yè)務(wù)當(dāng)前的痛點(diǎn),以及未來的巨大潛力。
眼下有各種各樣的模型:計(jì)算機(jī)視覺模型、機(jī)器人模型以及豐富的開源語言模型等等,這些模型極具開創(chuàng)性,但企業(yè)使用起來有難度:如何將模型部署到自己的應(yīng)用中?模型又該如何封裝和運(yùn)行?
黃仁勛解釋說:“推理其實(shí)是一種復(fù)雜的計(jì)算問題,企業(yè)該如何優(yōu)化每一個(gè)AI模型?如何充分調(diào)度超級(jí)計(jì)算機(jī)的計(jì)算資源?如何才能快速高效地部署這些模型?面對(duì)這些問題,我們創(chuàng)造了用收發(fā)請(qǐng)求來進(jìn)行軟件開發(fā)的新方法。它實(shí)質(zhì)上是把軟件都集成到一個(gè)容器中,這個(gè)容器就是NVIDIA推理微服務(wù)(NIM)?!?/p>
NIM其實(shí)是一個(gè)經(jīng)過預(yù)訓(xùn)練的AI模型,經(jīng)過封裝和優(yōu)化,可以在龐大的NVIDIA部署環(huán)境中運(yùn)行。因?yàn)槟P投际穷A(yù)訓(xùn)練好的,因此知道什么是合理的輸出。
進(jìn)一步拆開NIM來看,如下圖,在NVIDIA CUDA的部署環(huán)境中,上層還包括開源模型、合作伙伴專用模型以及英偉達(dá)所創(chuàng)建的模型,例如NVIDIA MoIMIM。這些模型封裝在一起,包括對(duì)應(yīng)版本的CUDA和cuDNN,支持分布式推理的NVIDIA TensorRT LLM,以及NVIDIA Triton推理服務(wù)器等。它可以根據(jù)實(shí)際情況進(jìn)行優(yōu)化部署,比如是單卡、多卡還是多節(jié)點(diǎn),最終,都通過簡單易用的API來實(shí)現(xiàn)調(diào)用。
“實(shí)際上,我們就是一家‘AI代工廠’,正如臺(tái)積電為我們制造芯片一樣,我們將為整個(gè)行業(yè)代工生產(chǎn)AI“,黃仁勛提出。
他解釋說,作為‘AI代工廠’,英偉達(dá)的工作主要有三大塊:第一,發(fā)明AI模型技術(shù),運(yùn)行AI模型并對(duì)其進(jìn)行封裝,也就是NIM;第二,提供模型定制開發(fā)工具,NeMo微服務(wù)可以幫助用戶整理和準(zhǔn)備數(shù)據(jù),以便對(duì)AI進(jìn)行初始訓(xùn)練。第三,提供基礎(chǔ)設(shè)施,便于實(shí)現(xiàn)模型的微調(diào)和部署,用戶可以部署在DGX cloud基礎(chǔ)設(shè)施上,也可以部署在本地,或是他們需要的任何地方。
黃仁勛透露,英偉達(dá)已經(jīng)在公司內(nèi)部部署了NIM,創(chuàng)建了各個(gè)領(lǐng)域的聊天機(jī)器人作為工作助理,其中一個(gè)最重要的聊天機(jī)器人就用于芯片設(shè)計(jì),來幫助英偉達(dá)提升芯片設(shè)計(jì)的效率。
“這些NIM是超級(jí)復(fù)雜的軟件、性能很高。但它具備簡單的API調(diào)用形式,這個(gè)API叫做人類。人們可以訪問網(wǎng)站使用,也可以下載到本地電腦、PC,或是在其它云上、工作站、用戶自己的數(shù)據(jù)中心……當(dāng)運(yùn)行這些庫時(shí),操作系統(tǒng)會(huì)進(jìn)行授權(quán),授權(quán)費(fèi)用為4500美元/GPU/年,用戶可以在上面運(yùn)行任意多的模型”,黃仁勛表示。
事實(shí)上,這些微服務(wù)相當(dāng)于為英偉達(dá)的全棧計(jì)算平臺(tái)增添了新的一層,連接起了由模型開發(fā)人員、平臺(tái)提供商和企業(yè)組成的AI生態(tài)系統(tǒng)。通過這些微服務(wù),一方面,企業(yè)可以在自己的平臺(tái)上創(chuàng)建和部署定制應(yīng)用,同時(shí)保留對(duì)知識(shí)產(chǎn)權(quán)的完整所有權(quán)和控制權(quán);另一方面,他們能夠在CUDA環(huán)境中,通過標(biāo)準(zhǔn)化路徑運(yùn)行優(yōu)化過的定制AI模型。
這就是 “AI代工廠”的精髓:強(qiáng)調(diào)專業(yè)化支持和資源共享、降低產(chǎn)業(yè)門檻、為AI高效率部署提供協(xié)助。
生成式AI驅(qū)動(dòng)變革,英偉達(dá)重視推理
促使黃仁勛從根本上對(duì)未來業(yè)務(wù)進(jìn)行梳理和思考的,根源上看應(yīng)該是數(shù)據(jù),是生成式AI的到來,使數(shù)據(jù)的產(chǎn)生和流轉(zhuǎn)產(chǎn)生了本質(zhì)的變化。
互聯(lián)網(wǎng)時(shí)代,我們查詢或獲取數(shù)據(jù)的方式主要是檢索,即:從數(shù)據(jù)集中檢索數(shù)據(jù)、處理數(shù)據(jù)、然后傳遞數(shù)據(jù)。“未來,越來越多的數(shù)據(jù)將是基于生成的,而不是檢索獲得的。這一切其實(shí)已經(jīng)在發(fā)生,我們現(xiàn)在打開手機(jī)獲取到的信息,往往已經(jīng)是基于推薦系統(tǒng)、以一種有意義的方式組合、處理后呈現(xiàn)出來的信息,這其中用到了大量計(jì)算,是與上下文相關(guān)的、是智能的”,黃仁勛解釋說。
“未來,如果每一個(gè)像素、每一次交互都通過生成過程產(chǎn)生,每一次人機(jī)交互都是生成式的體驗(yàn),那么,這將是一個(gè)巨大的機(jī)遇“,他說道。
這也就不難理解,為什么在今年的GTC上,“推理”被黃仁勛如此高頻地提及——發(fā)布Blackwell新架構(gòu)時(shí),花了好幾分鐘介紹了它的推理表現(xiàn);發(fā)布微服務(wù)時(shí),著重介紹了推理微服務(wù)。當(dāng)一家做云端生意的公司,大說特說推理業(yè)務(wù)時(shí),是時(shí)代變了,還是時(shí)候到了?
對(duì)于企業(yè)來說,云端訓(xùn)練是一個(gè)燒錢的過程,相當(dāng)于養(yǎng)娃,各種培訓(xùn)、補(bǔ)習(xí)班都是在砸錢。只有云端訓(xùn)練做得差不多了,娃能用學(xué)到的技能開始賺錢了,才能慢慢產(chǎn)生收益。對(duì)于AI來說,這就是通過推理業(yè)務(wù)進(jìn)入市場(chǎng)的過程。
從公開信息來看,Blackwell 在單芯片訓(xùn)練方面的FP8性能是其上一代架構(gòu)的2.5倍,在推理方面的FP4性能是其上一代架構(gòu)的5倍。這使得最新的Blackwell 平臺(tái),具有對(duì)萬億參數(shù)大語言模型進(jìn)行實(shí)時(shí)生成的能力。
此外,基于Blackwell和NVLink Switch新芯片,英偉達(dá)打造了一個(gè)多節(jié)點(diǎn)、液冷、機(jī)架級(jí)系統(tǒng)NVIDIA GB200 NVL72 。它能利用 Blackwell為萬億參數(shù)模型提供強(qiáng)力計(jì)算,在單個(gè)機(jī)架中可實(shí)現(xiàn)720 petaflops的AI訓(xùn)練性能和1.4 exaflops的AI推理性能。
同樣以90天訓(xùn)練GPT-MoE-1.8T參數(shù)模型為例,Hopper系統(tǒng)需要8000個(gè)GPU,能耗15MW;而Blackwell GB200 NVL72系統(tǒng),僅需要2000個(gè)GPU,能耗4MW,GPU數(shù)量和能耗約是上一代系統(tǒng)的1/4。
相同訓(xùn)練時(shí)間下,Blackwell平臺(tái)展現(xiàn)了更高能效、可以挑戰(zhàn)極限的能力?!拔覀儽仨毰宄锢順O限,達(dá)到極限,并要超越極限,而能源效率和成本效率是首要任務(wù)”,黃仁勛說。
寫在最后
從加速計(jì)算先驅(qū),到推動(dòng)生成式AI變革,英偉達(dá)現(xiàn)在是一家全棧計(jì)算基礎(chǔ)設(shè)施公司。
正如黃仁勛在采訪中所強(qiáng)調(diào),“英偉達(dá)的市場(chǎng)機(jī)會(huì)并不是GPU的機(jī)會(huì),而是可以投射到整個(gè)數(shù)據(jù)中心的機(jī)會(huì),這是每年2500億美元的市場(chǎng),并以每年20%至25%的速度在增長。我對(duì)GPU的思考也不是GPU,而是GPU之外的線纜、機(jī)架、交換機(jī)……我們不只做GPU芯片,我們做的是數(shù)據(jù)中心需要的一切。”
今年的GTC,也確實(shí)呈現(xiàn)出更明確的系統(tǒng)化方向:硬件通過完整的Blackwell平臺(tái)面向數(shù)據(jù)中心、超算,軟件方面提供一系列的微服務(wù)。在“推動(dòng)全球AI基礎(chǔ)設(shè)施大規(guī)模升級(jí)”的目標(biāo)之下,“AI代工廠”成為英偉達(dá)觸達(dá)用戶需求、撬動(dòng)大規(guī)模市場(chǎng)的關(guān)鍵一步。
就像臺(tái)積電當(dāng)年首創(chuàng)Foundry模式,半導(dǎo)體產(chǎn)業(yè)從IDM(集成設(shè)備制造商)逐漸轉(zhuǎn)變?yōu)镕abless(無晶圓廠)模式,半導(dǎo)體設(shè)計(jì)進(jìn)入空前繁榮期,也向更多中小型企業(yè)敞開了大門。生成式AI的未來,也將如此。
“企業(yè)IT行業(yè)正坐在一座‘金礦’上”,黃仁勛說道,“他們擁有多年來創(chuàng)建的工具和數(shù)據(jù)。如果他們能把這個(gè)‘金礦’變成 AI 助手,就能給用戶提供更多可能。