3月16日,百度 “文心一言”正式發(fā)布,基于百度智能云同步開放預(yù)約測試。
近段時間,與文心一言一樣火爆出圈的還有GPT-4,他們的出現(xiàn)意味著新一輪的人工智能變革和挑戰(zhàn)正式打響,云廠商將展開了一場與通用智能相關(guān)的產(chǎn)業(yè)競賽。
百度公司首席執(zhí)行官李彥宏認為,AI對各行各業(yè)的顛覆性改變才剛剛開始。大模型時代將產(chǎn)生三大產(chǎn)業(yè)機會,分別是新型云計算公司、可以進行行業(yè)模型精調(diào)的公司、基于大模型底座進行應(yīng)用開發(fā)的公司。
01、云計算格局迎新變化,云廠商難解大模型之困
云計算走過了發(fā)展的黃金十年。
在過去的十年里,我國云計算產(chǎn)業(yè)年均增速曾超30%,是全球增速最快的市場之一。
所謂市場有多繁榮,競爭就有多激烈。在前十年云廠商大都以賣算力、賣存儲為主,“集成和總包”是云廠商為了實現(xiàn)規(guī)?;鲩L普遍采用的方式。
但從具體實踐來看,這種打法不僅沒有把云計算變成招財貓,反倒成了吞金獸。從一定意義上說,總包集成是一種畸形且不健康的商業(yè)路徑。本質(zhì)上就是什么都做,并且大部分項目有著大量的定制化需求,需要投入大量的人力物力;另外一些項目沒有含金量,完全是為了刷流水而做。
長此以往,云廠商需要面對入不敷出,業(yè)務(wù)很難發(fā)展下去的挑戰(zhàn)。
以阿里云為例,在之前的12年里一直處于虧損狀態(tài),直到2021年才扭轉(zhuǎn)了這一局面,但利潤率只有2%。市占率方面,相關(guān)數(shù)據(jù)統(tǒng)計發(fā)現(xiàn),近兩年阿里云、騰訊云、華為云等頭部云廠商的增長持續(xù)放緩,就連最早入局云計算的阿里云的市占率也呈現(xiàn)連年走低趨勢。
也正是在這時,云廠商認識到了不能再扮演總包集成商的角色,要從規(guī)模性增長向健康且有質(zhì)量的增長轉(zhuǎn)變,于是阿里云、騰訊云等一眾云廠商開始調(diào)整策略,試圖從集成商的角色向被集成角色傾斜。
但與之而來的是,互聯(lián)網(wǎng)流量見頂,數(shù)字化轉(zhuǎn)型進程加快,云廠商的服務(wù)對象開始從互聯(lián)網(wǎng)企業(yè)向政企、制造業(yè)甚至是下沉市場轉(zhuǎn)變。
這時企業(yè)對云廠商的需求也不再是算力、存儲等基礎(chǔ)云服務(wù),而更加聚焦AI服務(wù)層面。有機構(gòu)預(yù)測到,2020年中國83.4%的企業(yè)重視人工智能,ChatGPT等生成式AI產(chǎn)品火出圈后,企業(yè)對人工智能的需求再次攀升。
提供人工智能,首先想到的就是大模型。經(jīng)過反復的實踐得出:大模型才是人工智能的發(fā)展趨勢和未來,其能實現(xiàn) AI從“手工作坊”到“工廠模式”的轉(zhuǎn)變。
在傳統(tǒng)模型中,根據(jù)不同場景,需要定制不同的算法模型,無法實現(xiàn)通用化可復制化。研發(fā)階段,為了應(yīng)對各式各樣的場景需求,AI 研發(fā)人員需要設(shè)計專網(wǎng)專用的個性定制化神經(jīng)網(wǎng)絡(luò)模型;落地階段,經(jīng)“一個場景一個模型”式的作坊式模型開發(fā)得到的模型在許多垂直行業(yè)場景任務(wù)不通用,無論對于企業(yè)還是云廠商來說,都是一筆不小的支出。
而大模型備自監(jiān)督學習的能力,能夠有效降低 AI 開發(fā)和訓練成本,同時可以適配各種場景。此外基于用戶的使用反饋,還可實現(xiàn)自主迭代升級。之于企業(yè)最大的意義就是,降低AI使用門檻,讓企業(yè)能夠像還是用水煤電一樣,方便快捷的使用各種AI能力。
李彥宏認為,大模型時代將產(chǎn)生三大產(chǎn)業(yè)機會:第一類是新型云計算公司,其主流商業(yè)模式從IaaS變?yōu)镸aaS。文心一言將根本性地改變云計算行業(yè)的游戲規(guī)則。之前企業(yè)選擇云廠商更多看算力、存儲等基礎(chǔ)云服務(wù)。未來,更多會看框架好不好、模型好不好,以及模型、框架、芯片、應(yīng)用這四層之間的協(xié)同。
第二類是進行行業(yè)模型精調(diào)的公司,這是通用大模型和企業(yè)之間的中間層,他們具有行業(yè)Know-how,調(diào)用通用大模型能力,為行業(yè)客戶提供解決方案。目前,百度文心大模型已經(jīng)在電力、金融、媒體等領(lǐng)域,發(fā)布了10多個行業(yè)大模型。
第三類是基于大模型底座進行應(yīng)用開發(fā)的公司,即應(yīng)用服務(wù)提供商。李彥宏認為,在文本生成、圖像生成、音頻生成、視頻生成、數(shù)字人、3D等場景可能出現(xiàn)未來的新巨頭。
因此,早在幾年前國內(nèi)頭部廠商以及就開始了相關(guān)大模型的研究與實踐,甚至有些頭部云廠商還推出了自家的大模型。諸如去年9月阿里達摩院推出“通義”大模型,此外,為推進中文大模型的開源生態(tài)建設(shè)推出了 AI 模型開源社區(qū)「魔搭」;京東推出了言犀大模型;華為推出了盤古大模型等等。
但從目前來看,國內(nèi)大模型仍處于早期,還沒到能真正落地應(yīng)用的商業(yè)化階段。
算力規(guī)模大且性能要求高、數(shù)據(jù)規(guī)模大,且數(shù)據(jù)質(zhì)量參差不齊、訓練難度大且成本高,堆砌了一道國內(nèi)企業(yè)難以闖進的圍墻。
“算力是企業(yè)通往大模型的攔路虎,也正是目前大模型不能真正落地的巨大挑戰(zhàn),”幾乎已經(jīng)成了行業(yè)共識。
大模型由于參數(shù)規(guī)模大、數(shù)據(jù)體量大通常需要強大的算力支持,而算力的核心是人工智能芯片。美國市場研究機構(gòu)TrendForce在3月1日的報告中測算稱,處理1800億個參數(shù)的GPT-3.5大模型,需要的GPU芯片數(shù)量高達2萬枚,未來GPT大模型商業(yè)化所需的GPU 芯片數(shù)量甚至超過3萬枚。
“缺少芯片會導致算力不足,算力不足意味著無法處理龐大的模型和數(shù)據(jù)量?!庇袑I(yè)的云計算技術(shù)人員曾計算過:1萬枚英偉達A100芯片是做好AI大模型的算力門檻。
反觀目前中國的芯片使用現(xiàn)狀,國際環(huán)境變化之下自美國實施貿(mào)易限制政策以來,中國企業(yè)只能使用英偉達A100的最佳替代品A800芯片,但是A800芯片在中國市場嚴重缺貨,而國內(nèi)少有企業(yè)具備自研高性能芯片的能力。
除算力算法外,模型訓練也是一項既耗時又耗錢的工作。訓練周期方面,訓練一個如ChatGPT的模型通常需要幾天甚至數(shù)周的時間;
訓練成本方面,據(jù)國盛證券報告《ChatGPT 需要多少算力》 估算,GPT-3 訓練一次的成本約為 140 萬美元,對于一些更大的 LLM(大型語言模型),訓練成本介于 200 萬美元至 1200 萬美元之間。
以 ChatGPT 在 1 月的獨立訪客平均數(shù) 1300 萬計算,其對應(yīng)芯片需求為 3 萬多片英偉達 A100 GPU,初始投入成本約為 8 億美元,每日電費在5萬美元左右。這只是芯片的成本,另外大模型所需的數(shù)據(jù)采集、人工標注、模型訓練等軟性成本是難以計算的。
算力算法、運營成本等仍是國內(nèi)大多數(shù)企業(yè)無法跨越的關(guān)卡。
02、構(gòu)建AI大模型,需集齊四張「能力卡」
國內(nèi)企業(yè)很難做出中國版AI大模型似乎已經(jīng)成了既定事實,但百度文心一言大模型卻刷新了行業(yè)認知。
從一定程度上說,ChatGPT以及百度文心一言大模型的出現(xiàn),是厚積薄發(fā)的自然結(jié)果。
清華大學人工智能國際治理研究院副院長、人工智能治理研究中心主任梁正也曾對外表示過:放眼國內(nèi),最有可能做出中國 ChatGPT 的可能是有綜合優(yōu)勢和過去積累和擁有芯片、框架、模型、應(yīng)用四層技術(shù)棧的百度。
百度集團執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖表示,之前企業(yè)選擇云廠商更多是看算力、存儲等基礎(chǔ)云服務(wù),以后企業(yè)對云的需求會更加聚焦智能服務(wù),會更多看框架好不好、模型好不好,以及芯片-框架-模型-應(yīng)用這四層架構(gòu)之間的協(xié)同是否高效。
具體來看,算力層面,百度自研芯片“昆侖芯”在AI計算、存儲、加速、容器方面進行系統(tǒng)優(yōu)化,提供高性價比的算力,承載海量數(shù)據(jù)的處理、超大模型的訓練和推理,目前已經(jīng)在多個場景實際部署幾萬片。
另外,百度還擁有多個云計算可用區(qū),諸如陽泉、徐水、定興云計算中心,其中陽泉智能云數(shù)據(jù)中心一期就可承載16萬臺服務(wù)器,預(yù)計整個百度陽泉云計算中心可承載24萬臺服務(wù)器;
百度目前已在山西陽泉、江蘇鹽城等地建設(shè)智算中心。其中,百度陽泉智算中心是亞洲最大單體智算中心,建設(shè)規(guī)模為4 EFLOPS(每秒400億億次浮點運算)AI算力,可滿足各行業(yè)超大規(guī)模AI計算需求。昆侖芯科技戰(zhàn)略負責人宋春曉表示:“人工智能芯片是算力的核心,昆侖芯2代已在百度文心大模型的應(yīng)用中廣泛落地,并為各行各業(yè)的智能化升級提供AI算力支持?!?/p>
據(jù)了解,百度智算中心持續(xù)創(chuàng)新計算架構(gòu),支持智算時代下企業(yè)不同業(yè)務(wù)場景的計算任務(wù),提升企業(yè)的業(yè)務(wù)效率和創(chuàng)新能力。目前,百度智算中心已支持了文心預(yù)訓練大模型、生物計算、自動駕駛等前沿AI應(yīng)用。同時,基于自研創(chuàng)新技術(shù)可使PUE低至1.08,實現(xiàn)了高效節(jié)能的運行,從而降低客戶的電費和運維成本。
深度學習框架層面,作為人工智能的底層操作系統(tǒng)——飛槳深度學習平臺向下適配各種硬件,支持文心大模型的開發(fā)、高性能訓練、模型壓縮、服務(wù)部署的各種能力,截止2022年底已凝聚535萬開發(fā)者,基于飛槳創(chuàng)建了67萬個模型,服務(wù)20萬家企事業(yè)單位,貫通了AI全產(chǎn)業(yè)鏈,串聯(lián)起全?;漠a(chǎn)業(yè)生態(tài)體系。
文心大模型層面,則已經(jīng)形成知識增強的ERNIE 3.0系列、跨模態(tài)系列等底座模型,在原有能源、金融、航天、傳媒等行業(yè)的基礎(chǔ)上,進一步升級到了11個行業(yè)大模型,將行業(yè)大模型延伸到了制造業(yè)、城市管理、汽車等關(guān)鍵領(lǐng)域。目前,百度已經(jīng)實現(xiàn)了“0到1”做標桿的階段,進入到了“從1-到3”的復制推廣階段。
這都為百度打造文心一言奠定堅實的技術(shù)基礎(chǔ),雷峰網(wǎng)了解到,自文心一言對外官宣后,已經(jīng)有包括互聯(lián)網(wǎng)、媒體、金融、保險、汽車、企業(yè)軟件等行業(yè)的 400 多家頭部企業(yè)宣布加入百度“文心一言”生態(tài),且這個生態(tài)還在持續(xù)擴大。
為支持文心一言超大規(guī)模計算需求,進一步實現(xiàn)文心一言的產(chǎn)業(yè)化落地,去年年底開始,百度智能云已經(jīng)通過三大動作全面升級云服務(wù)能力:2022年12月,發(fā)布國內(nèi)首個全棧自研的AI基礎(chǔ)設(shè)施“AI大底座”;2023年2月,升級AI研發(fā)運營一體化(MLOps)能力;2023年3月,百度陽泉智算中心完成升級。
值得一體的是,去年百度智能云還推出了“云智一體3.0”架構(gòu),并發(fā)布首個全棧自研的AI基礎(chǔ)設(shè)施“AI大底座”。
其中,“云智一體3.0”架構(gòu),形成了一套“芯片-框架-大模型-行業(yè)應(yīng)用”的智能化閉環(huán)路徑,每一環(huán)都有關(guān)鍵自研技術(shù),每一環(huán)之間都能形成信息反饋,通過不斷獲得反饋,實現(xiàn)端到端優(yōu)化。
百度AI大底座則在AI IaaS層,整合AI芯片“昆侖芯”,在AI計算、存儲、加速、容器方面進行系統(tǒng)優(yōu)化,提供高性價比的算力,承載海量數(shù)據(jù)的處理、超大模型的訓練和推理;在AI PaaS層,整合飛槳深度學習框架及百度文心大模型,打通百度的樣本中心、模型中心、AI開發(fā)平臺、AI服務(wù)運行平臺,實現(xiàn)從數(shù)據(jù)存儲到模型訓練、生產(chǎn)、部署、測試的全鏈路、批量化生產(chǎn),面向企業(yè)模型開發(fā)的全生命周期提供完整解決方案。
而面對高昂的訓練成本問題,百度毫不吝嗇在AI領(lǐng)域的研發(fā)投入力度。相關(guān)數(shù)據(jù)顯示,2022年研發(fā)費用達214.16億元,占百度核心收入比例達22.4%,百度第四季度的研發(fā)支出為57億元,截止現(xiàn)在研發(fā)費用占百度核心收入比例已經(jīng)連續(xù) 9個季度在20%以上。
03、寫在最后
云計算發(fā)展從黃金期過渡到瓶頸期,以賣資源搶占市場的時代已經(jīng)結(jié)束,與之而來的是通用智能化時代。在這個時代,誰先基于大模型搶先開發(fā)重要的應(yīng)用服務(wù)在這個時代,誰能推出通用化可復制化的智能化解決方案,誰就能在下一個云計算發(fā)展的十年中占據(jù)有利位置。
雷峰網(wǎng)了解到,從3月16號開始,文心一言正式開放預(yù)約,至3月17日下午2點,排隊申請百度智能云 文心一言企業(yè)版API調(diào)用服務(wù)測試的企業(yè)用戶突破8萬家。感興趣的讀者可直接搜索“百度智能云”進入官網(wǎng),申請加入文心一言的云服務(wù)測試。