近來,全球AI頻放大招。OpenAI和谷歌展示了大模型沒有上限的潛力,英偉達則展示了模型應(yīng)用可以下探的邊界。
這其實也是大模型未來的兩大方向,一種是在線的大模型,能力頂級,成為一部分專業(yè)人士不可或缺的工具;另一種則是本地AI算力的輕型化和垂直化,離線利用本地數(shù)據(jù)訓(xùn)練垂直模型,構(gòu)建本地的AI知識庫。
對于中國的AI市場來說,哪種更香?如何更貼近現(xiàn)實?
Sora、Gemini大秀超能力,英偉達版GPT深入PC本地
OpenAI Sora橫空出世,被業(yè)界認為“可以付諸商業(yè)或工業(yè)化生產(chǎn)的水平,是視頻創(chuàng)作領(lǐng)域里程碑式的產(chǎn)品”。CEO Altman透露,OpenAI已經(jīng)在和安全測試機構(gòu)、電影和視頻創(chuàng)作者合作,以改進產(chǎn)品。這也進一步印證其商業(yè)化步伐在加快,屆時,“商業(yè)可用”又將掀起一場疾風(fēng)驟雨。
谷歌也同步宣布了Gemini1.5大模型,最大的亮點是百萬級別的上下文長度。Gemini 1.0 Pro模型能夠處理3.2 萬個token(約2萬個單詞),相比之下,Gemini 1.5 Pro 每次可以處理100萬個token,結(jié)合原生多模態(tài)能力,可以一次性處理大量信息,例如1小時的視頻、11小時的音頻、超過3 萬行(或70萬個單詞)的代碼。Gemini1.5具備更強的推理能力、更強的多模態(tài)理解能力和編程能力,被認為已經(jīng)有了寫高質(zhì)量深度研究報告和論文的潛力。
除了這兩個大模型,英偉達近期也推出了自家的GPT——Chat with RTX,用戶可在搭載 NVIDIA GeForce RTX 30系列或更高版本的GPU(至少8GB顯存)進行本地部署,使用 Mistral、 Llama 2 等開源模型,幫助用戶閱讀文檔/視頻并通過檢索增強生成(RAG)總結(jié)文件內(nèi)容,全程由本地RTX進行推理。與依賴云端環(huán)境的LLM服務(wù)不同,Chat with RTX讓用戶能夠在 PC桌面端處理敏感資料,無需分享給第三方或是連接到網(wǎng)絡(luò),這是本地AI助手的一小步,也是邊緣推理的一大步。
大模型加速演進,算力需求倍增
以當紅的Sora為例,由于OpenAI透露的信息并不多,因此技術(shù)細節(jié)方面的依據(jù)主要是業(yè)界的一些推算。目前多數(shù)都認為它與傳統(tǒng)大語言模型(LLM) Transformer在架構(gòu)訓(xùn)練時的算力需求,幾乎呈幾何倍數(shù)遞增。
作為一款劃時代的文生視頻大模型,Sora與Transformer模型本質(zhì)上的不同在于訓(xùn)練數(shù)據(jù)分別是patch與token,分別代表圖片與文字。圖像的輸入數(shù)據(jù)不是一個一個字符,而是一個一個像素。比如GPT-4被訓(xùn)練以處理一串token,并預(yù)測出下一個token;而Sora不是預(yù)測序列中的下一個文本,是預(yù)測序列中的下一個“patch”。顯然,圖片涉及的時空間數(shù)據(jù)相較于語言文字呈現(xiàn)的數(shù)據(jù)維度有著幾何維度的差異。
由谷歌支持的人工智能初創(chuàng)公司 Runway去年發(fā)布了文生視頻模型 Gen-2,這是首批商業(yè)化的文本轉(zhuǎn)視頻模型之一。數(shù)據(jù)顯示,GEN-2模型是由2.4億張圖片和640萬個視頻片段組成的內(nèi)部數(shù)據(jù)集進行訓(xùn)練的。
判斷Sora架構(gòu)的參數(shù)只會比GEN-2更大,目前有券商測算,假定Sora與Runway GEN-2所訓(xùn)練的數(shù)據(jù)量相同,以每張圖片分別為1920 x 1080分辨率,每個視頻分別為30秒30FPS,那么patch大小為[(2.4 x 108)+ (6.4 x 107 x 30 x 30)] x 1920 x 1080 x3= 3.73 x 1016,再將Patch大小轉(zhuǎn)換成token大小為(3.73 x 1016) ÷ (16 x 16 x 3)= 4.86 x 1013,這是指數(shù)級別的差距。再對應(yīng)到大語言模型與Sora架構(gòu)訓(xùn)練時的算力需求,也幾乎是幾何倍數(shù)的遞增。
原有的AI算力焦慮尚且無解,而Sora進一步抬升了需求天花板,也難怪Altman在醞釀7萬億美元的“造芯大計”,這似乎就是個無底洞。那么,在更多的GPU或加速硬件能滿足需求前,特別是對于中國市場來說,還可以關(guān)注哪些方向?
深挖異構(gòu)“富礦”,持續(xù)優(yōu)化算力效率
過去一年間,我們目睹了“百模大戰(zhàn)”,而算力基礎(chǔ)設(shè)施的壁壘始終比較堅挺,這其中既包括可用的芯片,也包括穩(wěn)定的基礎(chǔ)設(shè)施軟件。
大模型參數(shù)規(guī)模給訓(xùn)練系統(tǒng)不斷帶來挑戰(zhàn),主要包括:內(nèi)存瓶頸、運行效率、較高的模型開發(fā)成本等,迫使業(yè)界一方面尋求新的解決方式,另一方面繼續(xù)優(yōu)化已有的解決方案和基礎(chǔ)設(shè)施。既然算力遲早會跟不上模型的擴展速度,那是不是首先要充分挖掘已有資源,讓它最大化發(fā)揮效能?
這其中有一個非常關(guān)鍵的方向就是異構(gòu)算力平臺的搭建、調(diào)度和管理,比如CPU、GPU、FPGA等異構(gòu)算力節(jié)點的協(xié)同,來支持上層的智算應(yīng)用。
事實上,跨異構(gòu)計算節(jié)點支撐統(tǒng)一智算應(yīng)用的調(diào)度,目前依然面臨技術(shù)挑戰(zhàn)。由于不同 GPU 等異構(gòu)硬件在支撐智算應(yīng)用時,依賴不同的技術(shù)棧,包括底層的CUDA、編譯器、前端AI框架等,例如運行在英偉達GPU上的應(yīng)用并不能調(diào)度到國產(chǎn)化的GPU上無縫運行,也無法將一個運行在GPU上的程序不經(jīng)過適配改動直接運行在FPGA上。
技術(shù)棧的問題導(dǎo)致一個智算應(yīng)用目前仍然很難在不同的異構(gòu)算力節(jié)點上無縫遷移,或者同步運行,往往需要對應(yīng)用本身進行適配和改造,才能具備在不同異構(gòu)算力節(jié)點上進行任務(wù)調(diào)度的前提。
另一方面,業(yè)界當前的另一研究熱點是節(jié)點內(nèi)混合異構(gòu)計算系統(tǒng)內(nèi)異構(gòu)算力的協(xié)同。主流的混合異構(gòu)系統(tǒng)包括:CPU+GPU,解決深度學(xué)習(xí)模型訓(xùn)練在CPU上耗時長的問題,提升深度學(xué)習(xí)模型的訓(xùn)練效率;CPU+GPU+DPU,DPU的核心是將任務(wù)從 CPU“卸載”,使得更多CPU核心可用于處理應(yīng)用程序,從而提高數(shù)據(jù)中心的效率;此外還有CPU+TPU架構(gòu)等混合異構(gòu)系統(tǒng)等。
由于不同應(yīng)用對算力的需求不同,異構(gòu)算力支撐同一應(yīng)用也具有較大的性能表現(xiàn)差異性。只有實現(xiàn)異構(gòu)AI算力的管理和調(diào)度,兼容適配多種智能AI硬件,實現(xiàn)硬件與計算要求有效對接、異構(gòu)算力在節(jié)點間靈活調(diào)度、同時協(xié)同提供智算相關(guān)處理流程,將各類異構(gòu)算力協(xié)同處理,才能真正發(fā)揮最大的計算效力,為多樣化AI的應(yīng)用場景提供高性能、高可靠的算力支 撐。
目前這個方向以中國移動、浪潮、新華三的方案比較有代表性。比如中國移動是基于移動云底座的IaaS能力,實現(xiàn)異構(gòu)資源池化;浪潮是打造了一個統(tǒng)一的主流深度學(xué)習(xí)框架(Tensorflow、 Pytorch、Caffe、Mxnet、PaddlePaddle)開發(fā)訓(xùn)練平臺以及計算資源(CPU、GPU、內(nèi)存、存儲)管理的平臺,叫AIStation;新華三是建立了AI和HPC資源一體化管理的集群管理平臺,支持異構(gòu)計算資源管理、容器管理等,實現(xiàn)AI和HPC資源的靈活調(diào)配管理。
面向指數(shù)級增長的算力需求,中國AI業(yè)界不妨先盤盤家底,繼續(xù)深挖底層問題,持續(xù)進行優(yōu)化,畢竟基礎(chǔ)設(shè)施是AI發(fā)展的先決條件,也是現(xiàn)實當前的一個主動選擇。
離線大模型,有望觸達AIGC毛細血管
對于中國本土AIGC產(chǎn)業(yè)的發(fā)展,這一年的討論聲不絕于耳。其中,離線大模型是一個熱點方向,甚至有觀點認為,中國市場更大的機會可能在于此。
世界經(jīng)濟論壇最近的一份報告預(yù)測,能夠離線運行生成式AI模型的設(shè)備將大幅增長,其中包括個人電腦、智能手機、物聯(lián)網(wǎng)設(shè)備等。原因在于本地模型不僅更私密,與云托管模型相比,本地模型的延遲更低,成本效益更高。根據(jù)這些預(yù)測,能在本地部署、進行AI推理的大模型,才能觸及廣大潛在用戶的“毛細血管”。
中國市場更大的機會是否在離線大模型?
從算力的角度來看,離線大模型可能更適合中國市場現(xiàn)狀。由于大模型的訓(xùn)練需要巨大的算力,而中國在算力水平方面與美國還存在較大差距。發(fā)展離線大模型可以在一定程度上減輕對算力的需求,降低研發(fā)成本,使得更多的企業(yè)和機構(gòu)能夠參與到大模型的研發(fā)和應(yīng)用中。
從數(shù)據(jù)隱私和安全性角度來看,離線大模型也更具優(yōu)勢。由于離線大模型不需要將數(shù)據(jù)傳輸到云端進行訓(xùn)練,因此可以更好地保護用戶數(shù)據(jù)的安全和隱私,符合中國市場的需求和法規(guī)要求。
此外,在某些特定場景下,如自動駕駛、智能制造等領(lǐng)域,需要實時處理和分析大量數(shù)據(jù),對模型的響應(yīng)速度和準確性要求極高。離線大模型可以在本地進行訓(xùn)練和推理,能夠更好地滿足這些場景的需求。
比如PC產(chǎn)業(yè)就已看準了AIGC帶來的新契機,英特爾、高通、聯(lián)想、英偉達等已經(jīng)紛紛入局。從需求端來看,AI PC作為承載AI大模型的設(shè)備,能有效提高生產(chǎn)力,從傳統(tǒng)PC向AI PC升級將變得十分必要。且在AI普及之后,出于隱私、成本等方面的考慮,AI本地化的重要性也愈發(fā)凸顯,這就需要離線大模型發(fā)揮作用。芯片層面,需要專用的GPU、NPU、以及大容量的DRAM等執(zhí)行大模型離線推理,支持實時的AI應(yīng)用,
當然,除了個別場景,在線大模型也有其不可替代的優(yōu)勢。例如,可以通過不斷從海量數(shù)據(jù)中學(xué)習(xí)來提高自身性能,具有更強的泛化能力和適應(yīng)性;還可以利用云端強大的算力資源進行訓(xùn)練,加速模型的優(yōu)化和迭代。
對于在線和離線大模型,有一個比喻很形象:在線大模型就像是大食堂的大鍋飯,提供統(tǒng)一的口味,所能滿足的量很大,不過吃飯都要涌去排隊;部署在本地設(shè)備中的離線大模型,就像是個人私廚,可以自己開小灶,滿足自己的口味需求,相應(yīng)地也不能和大食堂比供應(yīng)量。
對于中國市場來說,離線大模型和在線大模型各有優(yōu)勢和適用場景。具體選擇哪種模型取決于具體的應(yīng)用場景、數(shù)據(jù)規(guī)模、算力資源等多個因素的綜合考慮。同時,也需要注意到不同模型之間的互補性,可以結(jié)合實際需求進行靈活選擇和組合。
重視中文數(shù)據(jù)開源生態(tài)建設(shè)
“訓(xùn)練大模型需要的是知識,對知識的純度要求很高,含量和質(zhì)量要求很高,這樣訓(xùn)練出來的大模型才越聰明。如果拿網(wǎng)上無聊的杠精聊天記錄做訓(xùn)練,最后只會訓(xùn)練出來一個杠精”,這是360創(chuàng)始人周鴻祎近期談到大模型訓(xùn)練時的一個觀點。
他同時認為,要加大開源分享的力度,而不是各家關(guān)起門來自己閉門造車。國外AI發(fā)展非???,一個關(guān)鍵是開源生態(tài)的各種論文交流,如果每個人都從零到一做研發(fā),都要把別人走過的坑再走一遍,實際速度就會很慢。
當前,全球大模型開源已然形成三巨頭局面:谷歌Gemma、Meta LLama和歐洲Mistral。
自從以O(shè)penAI為代表的閉源模型廠商開放對外技術(shù)服務(wù)后,開源模型廠商一直在加緊發(fā)力。以Meta為例,2023年2月,發(fā)布了開源大模型LLM的第一個版本Llama,授予“可研究”用途;2023年7月,進一步發(fā)布“可商用”的Llama2版本。這其實在預(yù)示著大模型競爭已經(jīng)進入白熱化的態(tài)勢。因為開源不僅能吸引大批開發(fā)者,更能建立生態(tài)系統(tǒng),從而建立自己的技術(shù)壁壘。
雖然Llama2基本不支持中文,對中國的大模型商用生態(tài)暫時不會產(chǎn)生實質(zhì)性變化,但中國仍需要開發(fā)培育適配于中文數(shù)據(jù)土壤的開源生態(tài)。通過開源社區(qū)的建設(shè),可以吸納更多的開發(fā)者及擁有定義用戶的主導(dǎo)權(quán),以AI開源創(chuàng)新平臺為杠桿,帶動支撐底層AI芯片、智算中心及云服務(wù)等基礎(chǔ)設(shè)施發(fā)展。
根據(jù)《2023年中國AIGC產(chǎn)業(yè)全景報告》,從供給側(cè)邏輯來看,大模型開源早期由高校和機構(gòu)推動,如清華大學(xué)的ChatGLM-6B、復(fù)旦大學(xué)的MOSS,陸續(xù)有頭部云廠商加入,如百度的文心系列與阿里的通義系列,共同為中國AIGC開源社區(qū)的建設(shè)“增磚添瓦”,以阿里云魔塔社區(qū)、百度云飛槳社區(qū)為代表的開源社區(qū)建設(shè)成果初現(xiàn),而千億級模型暫以閉源路徑開展,憑借穩(wěn)定、優(yōu)質(zhì)效、完整工具鏈等產(chǎn)品特點定位應(yīng)用市場。
從商業(yè)化路徑來看,參考海外明星開源社區(qū)Hugging Face的商業(yè)模式,中國AI開源社區(qū)同樣會先免費提供基礎(chǔ)算力,為客戶提供免費的社區(qū)體驗、demo部署及測試,并進一步通過付費服務(wù)推送輕量級遷移的微調(diào)推理服務(wù)或深度開發(fā)的訓(xùn)練調(diào)優(yōu)平臺,提升模型產(chǎn)品性能,通過開源社區(qū)吸引開發(fā)者、企業(yè)客戶完成更多部署應(yīng)用資源的引流變現(xiàn)。
未來,開源和閉源的大模型有望并存和互補,閉源大模型可為B端用戶和C端消費者持續(xù)提供優(yōu)質(zhì)的模型開發(fā)及應(yīng)用服務(wù);開源大模型則可從研究角度促進廣大開發(fā)者和研究者的探索創(chuàng)新,從商用角度加速大模型的商業(yè)化進程與落地效果。
寫在最后
OpenAI正在堅定不移地擁抱AGI信仰,不斷探索AI能力的天花板。對于全球AI玩家來說,“比肩OpenAI”成為了一個目標甚至信仰。
不過,客觀存在的差距意味著,中國的AIGC發(fā)展必須筑牢底層,找到適合自己的獨特化路徑,才能實現(xiàn)發(fā)展和超越。在通往AGI的道路上,目前比較公認的方向還是更大規(guī)模的模型和更多的數(shù)據(jù),因此,大算力集群、數(shù)據(jù)的需求將會繼續(xù)提升,同時找到廣泛的、多樣的應(yīng)用場景,才能最終實現(xiàn)商業(yè)閉環(huán)。