編輯:三明治 |
“切勿錯過AI的決定性時刻!”當黃仁勛在英偉達GTC 2023上提出這個觀點時,可能很多和我一樣的普通人并沒有把它放在心上,畢竟當時的AI應用少之又少,懂得在家里部署本地AI繪畫的只有極少數(shù)數(shù)碼愛好者,而相對大眾的大語言模型給人們帶來的也只有一時的新鮮感。當然,現(xiàn)在看來,那個時間點可能確實是AI的決定性時刻。今天凌晨,被譽為AI風向標的英偉達GTC 2024在加州圣何塞SAP中心正式舉行,萬眾矚目的英偉達創(chuàng)始人兼執(zhí)行長黃仁勛登臺發(fā)表主題演講《見證AI的變革時刻》。老黃誠不欺我,我們確實見證了一場AI的變革時刻。
(圖源:techovedas)在這場兩個小時的演講中,黃仁勛公布了該公司迄今為止最強的AI加速卡——Blackwell GB200超級芯片系統(tǒng),預先配置好整套系統(tǒng)的完整版GB200服務器,以及英偉達在AI軟件(NIM微服務)、Omiverse云(模擬地球)、具身智能(機器人)等技術方面的最新進展。老黃帶來的這一波AI芯片基礎設施到底有多強大?將給AI大模型產業(yè)帶來什么改變?一起來看。
Blackwell GB200:最強AI加速卡
在人工智能領域,計算速度是至關重要的。為了在最短的時間里,完成大量同質化數(shù)據(jù)的并行運算,就需要給GPU投喂大量的數(shù)據(jù),訓練出一個復雜的神經(jīng)網(wǎng)絡模型,可以說GPU就是AI大模型訓練平臺的基石,甚至是決定性的算力底座。因此,本次演講的主角自然是英偉達的老本行「Blackwell B200」GPU 芯片。
(圖源:英偉達,現(xiàn)場對比Blackwell架構和Grace Hopper架構的GPU)作為NVIDIA Blackwell架構首款新產品,Blackwell B200基于臺積電的4nm工藝打造,采用了將兩個die連接成一個GPU的雙芯設計,因此每個GPU芯片上擁有2080億個晶體管。比起上一代GH100 GPU上的800億個晶體管,Blackwell B200 GPU算是一次相當大的突破,甚至還契合了摩爾定律,即「集成電路上可容納的晶體管數(shù)目大約每隔18個月便會增加一倍」。
黃仁勛表示,在這樣的架構升級下,Blackwell B200的AI性能可達20PFLOPS,而 H100僅為4PFLOPS,理論上可以為 LLM(大語言模型)的推理提升 30 倍的工作效率,額外的處理能力將使人工智能公司能夠訓練更大、更復雜的模型。更離譜的是,在B200的基礎上,老黃還推出了完全體AI芯片組——Blackwell GB200,由兩個Blackwell B200 GPU 和一個基于Arm的Grace CPU組成。在參數(shù)為1750億的GPT-3 LLM基準測試中,英偉達稱GB200的性能是H100的7倍,而訓練速度是H100的4倍。
這AI性能,已經(jīng)形成代差水平了。當然,如果GB200還不能滿足你的需求的話,英偉達還準備了一系列由Blackwell GB200組成的服務器陣列,最高可以實現(xiàn)由72片B200 GPU組成的GB200 NVL72 系統(tǒng),F(xiàn)P8精度的訓練算力高達720PFlops,達到了可以和前代DGX SuperPod超級計算機集群的水平。
更重要的是,與H100相比,它可將成本和能耗降低到原來的 25 分之一。在今年年初的時候,美國知名雜志《紐約客》報道,ChatGPT每日耗電量或超過50萬千瓦時,相當于美國家庭平均用電量的1.7萬倍。正如馬斯克所說,在可以預見的未來,電能短缺將成為制約AI發(fā)展的主要因素。
老黃明確表示,在此之前,訓練一個1.8萬億參數(shù)模型需要8000個H100 GPU和約15兆瓦的功率,如今2000個B200 GPU就可以做到這一點,而功耗僅為4兆瓦。如此驚人的參數(shù),讓老外直呼,“摩爾定律已被改寫!”
可以預見,為了繼續(xù)吸引國內市場的客人,黃仁勛很可能在未來推出采用新一代AI圖形處理器架構的特供版AI加速卡Blackwell B20 GPU。只是在美國商務部明確算力出口限制的情況下,這顆中國特供版GPU能帶來多少產能上的提升,又能否和國產替代AI加速卡之間達成良性競爭,只能說目前一切都是未知之數(shù)。
從模擬地球到人形機器人
從整個世界的狂熱程度來看,生成式AI浪潮的到來已凝聚了廣泛共識。那么我們到底能利用AIGC來做些什么呢?老黃今天給出了一些標準答案。不知道大家有沒有玩過一款叫做《模擬地球》的游戲,開發(fā)商MAXIS在當時性能相對貧乏的電腦上創(chuàng)造了一個微縮地球,讓玩家扮演神明的角色,管理整個地球的地形、大氣、生物、文明等內容,建造一個生命繁榮的惑星。
現(xiàn)在,英偉達利用大模型的能力,正試圖打造出地球的數(shù)字孿生——Earth-2。Earth-2是一個在英偉達Omniverse中以百萬倍的速度運行Modulus創(chuàng)建的AI物理環(huán)境,旨在實現(xiàn)數(shù)據(jù)中心規(guī)模的全球模擬環(huán)境,最終利用云計算和人工智能技術來模擬和可視化天氣情況。
利用傳統(tǒng)的天氣模型結合英偉達的氣象模型,最高能夠實現(xiàn)探索數(shù)百公里甚至數(shù)千公里面積范圍的預報,提供諸如臺風影響的侵襲范圍,從而最大程度降低財產的損失,未來這項技術預計也將向更多國家和地區(qū)開放。沒有錯,當年PS3模擬地球的梗,如今似乎要成真了。
接下來,我們聊聊人形機器人。近些年來,人形機器人成為了科學業(yè)界一個比較流行的研究趨勢,除了馬斯克那備受關注的Tesla Optimus,波士頓動力、Agility Robotics、優(yōu)必選、小米、智元機器人、科大訊飛等中外企業(yè)也在這條道路上鉆研著。隨著大模型不斷的迭代升級,智能泛化能力的飛速提升,業(yè)內有不少人看到了人形機器人的潛在前景,相較于用反復調試的各種數(shù)據(jù)去驅動機器人,不如試著用大模型用作大腦,機器人充當軀殼,讓大模型通過感知、運動和環(huán)境交互來獲取信息、做出判斷并采取行動。而這,便是人工智能的終極形態(tài)之一——具身智能。
為此,英偉達在今天推出了世界首款人形機器人通用基礎模型——Project GR00T,該模型驅動的機器人將能夠理解自然語言,并通過觀察人類行為來模仿動作,用戶可以在此基礎上教會其快速學習協(xié)調各種技能,以適應現(xiàn)實世界并與之互動。老黃堅信,具身智能將引領下一波人工智能浪潮。看到這里小雷只想說,優(yōu)必選們,趕緊去跟英偉達合作吧,你們的機器人“身體”,必須在英偉達的Project GR00T“大腦”加持下,才能成為真正的智能機器人。隨著Project GR00T的出現(xiàn),真正的機器人時代可能要來了,這也是AI的最終極應用:讓人工智能具象成為“人”。
十年夙愿終成真英偉達CUDA真“酷酷噠”
在GTC 2024開幕演講上,老黃回顧了一下英偉達的發(fā)展史。2014年,黃仁勛首次強調機器學習的重要性,并且提出了CUDA(通用計算平臺)的概念,在許多人還在把英偉達當作「游戲顯卡」的制造商時,它們已經(jīng)走在了 AI 變革的最前沿。
然而當年,CUDA的應用場景主要是科學計算,就是類似于氣候模擬、物理模擬、生物信息學等專業(yè)研究,應用場景很有價值,但卻狹窄。正因為此,英偉達的CUDA一直沒有打開市場,帶給英偉達的回報無法與對應的巨量研發(fā)投入匹配。黃仁勛每年都需要向董事會解釋,為什么英偉達要堅持做CUDA?——可能當時老黃也不知道,英偉達的CUDA會在未來幾年,先后迎來區(qū)塊鏈“挖礦”、AI大模型計算等計算場景,真實潑天富貴。
短短兩年時間,英偉達通過H100、H200 芯片,締造了萬億AI帝國,市值已超越亞馬遜等傳統(tǒng)豪強,按照這樣的勢頭,在可見的未來,超越蘋果、微軟成為世界頭號巨頭也不是沒有可能?,F(xiàn)在,英偉達的“卡”供不應求,不只是字節(jié)、百度等中國科技巨頭在搶著囤卡以應對極端情況,硅谷科技巨頭如微軟、Meta,也全都在找老黃買卡。如今,盡管入局AI以及AI芯片的玩家越來越多,部分貿易政策的沖突也讓老黃變得有些束手束腳,但從整場大會演講來看,他依然對全新發(fā)布的B200、GB200頗具信心,對于整個世界被AI賦能的愿景更是堅定不移。在被稱為AI應用元年的2024,英偉達的CUDA(通用計算平臺)正如其名,變得通用起來,從大語言模型、對話式AI、邊緣計算等底層技術,到智能座艙、自動駕駛、人形機器人等應用場景,再到AI手機、AI PC、AI家電、AI搜索、AI繪畫等應用,以及未來的氣候預測、計算光刻與6G網(wǎng)絡,AI正無處不在,英偉達的計算也無處不在,成為“通用計算”。英偉達的CUDA,真的很“酷噠”。