大模型評(píng)價(jià)標(biāo)準(zhǔn),現(xiàn)在到了被擺上臺(tái)面討論的時(shí)刻。
過(guò)去兩個(gè)月,“百模大戰(zhàn)”吸足了外界眼球,大模型越發(fā)越多,但到底什么樣的大模型才是好大模型,卻也越來(lái)越眾說(shuō)紛紜、備受關(guān)注。
就在這樣的時(shí)間節(jié)點(diǎn),國(guó)內(nèi)最早內(nèi)測(cè)生成式AI大模型的百度,一波新的技術(shù)動(dòng)作,迅速在線下引發(fā)熱烈反響:
5月9日的百度智能云的文心大模型技術(shù)交流活動(dòng)現(xiàn)場(chǎng),文心一言先是化身“文心問(wèn)數(shù)”,秀了一把分分鐘數(shù)據(jù)可視化的能力。
但下一分鐘,“出bug”的一幕就給逮住了:在面對(duì)畫折線圖的需求時(shí),文心一言壓根沒(méi)懂,來(lái)了一句“換個(gè)問(wèn)題試試”。
這是上演直播事故了?臺(tái)上的程序員小哥,卻十分淡定,隨即調(diào)出了一個(gè)新界面——文心千帆大模型平臺(tái)。
結(jié)果下一步操作,直接讓現(xiàn)場(chǎng)觀眾紛紛舉起手機(jī)錄像:現(xiàn)!場(chǎng)!微!調(diào)!大!模!型!
只見(jiàn)他當(dāng)場(chǎng)新建了一個(gè)微調(diào)數(shù)據(jù)集。
導(dǎo)入的是這樣一份數(shù)量在100條左右的標(biāo)注數(shù)據(jù)。
一通可視化操作下來(lái),不過(guò)10幾分鐘之后,當(dāng)文心一言再次被要求:
華北地區(qū)2019年3月的銷售額,用折線圖表示。
它就已經(jīng)完全不糊涂,能快速給出正確的結(jié)果了。
不錯(cuò),“現(xiàn)場(chǎng)調(diào)教”,恰恰是這一次技術(shù)交流活動(dòng)中,文心一言最受關(guān)注的升級(jí)重頭戲。
因?yàn)檫@就意味著,在百度圍繞文心一言搭建起的工具鏈中,僅需少量數(shù)據(jù),最快幾分鐘,大模型就能完成一次“定制化”,這也是國(guó)內(nèi)第一個(gè)現(xiàn)場(chǎng)演示如何微調(diào)行業(yè)專屬大模型的全過(guò)程。
更重要的是,通過(guò)已在內(nèi)測(cè)中的文心千帆大模型平臺(tái),這樣的訓(xùn)練調(diào)優(yōu)經(jīng)驗(yàn)和技術(shù),已經(jīng)可以向第三方輸出了。
于是,回到一開(kāi)始那個(gè)問(wèn)題上,什么樣的大模型才是好大模型?大模型背后正在被改寫規(guī)則的云計(jì)算,又該用何種新標(biāo)準(zhǔn)去評(píng)價(jià)?
至少現(xiàn)在,討論的范圍中,是時(shí)候考慮加進(jìn)新的樣本范例了。
文心千帆是什么?
先來(lái)研究研究,這個(gè)“文心千帆大模型平臺(tái)”,與文心一言具體是個(gè)什么關(guān)系?
簡(jiǎn)單來(lái)說(shuō),在文心千帆大模型平臺(tái)上,企業(yè)用戶可以直接用上文心一言的大模型服務(wù),不過(guò)與此同時(shí),也可以基于這個(gè)平臺(tái),訓(xùn)練、調(diào)優(yōu)任何第三方大模型,打造屬于自己的大模型。
作為全球首個(gè)一站式企業(yè)級(jí)大模型平臺(tái),文心千帆所能提供的,實(shí)際上不僅是大模型本身,更是開(kāi)發(fā)大模型的一整套工具鏈和環(huán)境。
還是結(jié)合具體案例來(lái)看看,文心千帆具體能用來(lái)做什么。
首先,是公有云服務(wù)。主要包括三個(gè)組成部分:
1、推理,就是直接調(diào)用大模型的推理能力。
以百度員工“內(nèi)用”的智能辦公軟件如流為例,其中就接入了一個(gè)可以直接向文心一言提問(wèn)的AI小助手。
平時(shí)無(wú)論是程序員還是產(chǎn)品經(jīng)理,手頭上的項(xiàng)目都有不少,遇到問(wèn)題時(shí)往往需要私戳對(duì)應(yīng)的負(fù)責(zé)人,光是等待時(shí)間就接近5分鐘。
現(xiàn)在有了AI助手,如流不僅能直接模擬同事身份,幫助回答一些專業(yè)問(wèn)題,還能從項(xiàng)目文件中提取關(guān)鍵信息來(lái)答疑解惑。
而且,平均應(yīng)答時(shí)間只需5秒鐘,比同事快了60倍。
這樣看,哪天身邊的同事被AI替代了,可能百度員工都不知道(手動(dòng)狗頭)
2、微調(diào),通過(guò)少量高質(zhì)量的精標(biāo)業(yè)務(wù)數(shù)據(jù),高效訓(xùn)練出特定行業(yè)大模型。前文提到的文心一言現(xiàn)場(chǎng)微調(diào),就是基于這一服務(wù)實(shí)現(xiàn)的。
3、托管,即把訓(xùn)好的模型,發(fā)布到百度智能云上,由百度智能云來(lái)對(duì)模型進(jìn)行運(yùn)營(yíng)維護(hù)。企業(yè)同樣只需考慮如何用好模型,而無(wú)需顧慮復(fù)雜的部署和管理問(wèn)題。
百度集團(tuán)副總裁侯震宇談到,盡管當(dāng)前,從頭訓(xùn)練大模型的成本仍然高昂,但使用、微調(diào)大模型的成本已經(jīng)在過(guò)去幾個(gè)月中,有顯著降低。
比如,現(xiàn)在調(diào)用文心一言的成本,已經(jīng)降低到模型剛發(fā)布時(shí)(3月16日)的10%。
也就是說(shuō),通過(guò)文心千帆的公有云服務(wù),用戶可以直接服用百度智能云過(guò)去積累下的開(kāi)發(fā)、應(yīng)用大模型的經(jīng)驗(yàn),更低成本、低門檻地用上大模型。
公有云服務(wù)之外,文心千帆也支持私有化部署。同樣包括三個(gè)方面:
- 軟件授權(quán),即在企業(yè)本地環(huán)境中,提供文心一言的大模型服務(wù)。
- 軟硬一體,提供整套大模型服務(wù)及對(duì)應(yīng)的硬件基礎(chǔ)設(shè)施。
- 租賃服務(wù)。提供機(jī)器和平臺(tái)租賃,以滿足客戶的低頻需求。
以金山辦公為例,他們認(rèn)為,當(dāng)前市面上的文檔產(chǎn)品,無(wú)論是傳統(tǒng)的還是流式的,都是基于人們的創(chuàng)作,用自己的筆一行一行把想要的東西表達(dá)出來(lái)。
這就需要重新思考,AI時(shí)代,創(chuàng)作的過(guò)程該是什么樣子?
金山辦公選擇的策略是,“要跟中國(guó)優(yōu)秀的大模型提供方站在一起,做好大模型應(yīng)用方的角色,用更好的辦公軟件,為客戶提供更多的價(jià)值”,于是在綜合考慮安全合規(guī)、模型深度、迭代速度、推理性能等多個(gè)方面的優(yōu)勢(shì)后,金山辦公pick了文心千帆。
據(jù)透露,在意圖理解、PPT大綱生成、范文書寫、生成待辦列表、文生圖等多模態(tài)生成的場(chǎng)景上,雙方的聯(lián)合開(kāi)發(fā)已經(jīng)取得了進(jìn)展,但在細(xì)節(jié)方面仍然會(huì)自己進(jìn)一步調(diào)試。
說(shuō)不定不久后,我們就能在WPS Office上和基于文心千帆大模型平臺(tái)打造的AI小助手對(duì)話了。
相比于公有云服務(wù),私有化部署能滿足更嚴(yán)格的數(shù)據(jù)監(jiān)管需求。
總結(jié)一下就是,文心千帆能通過(guò)圖形化的界面,提供AI算力,數(shù)據(jù)管理、模型訓(xùn)練、評(píng)估優(yōu)化、服務(wù)部署等大模型生產(chǎn)開(kāi)發(fā)全流程的工具鏈。除了開(kāi)發(fā),文心千帆還為客戶提供了非常好的大模型訓(xùn)練推理服務(wù)。
有意思的一點(diǎn)是,百度智能云AI與大數(shù)據(jù)平臺(tái)總經(jīng)理忻舟提到,“快且收斂,是大模型應(yīng)用訓(xùn)練中一個(gè)非常重要的指標(biāo),只快不收斂,大模型的訓(xùn)練是沒(méi)有用的?!?/p>
基于文心千帆大模型平臺(tái)+百度AI大底座的能力,像Bloom、LLaMA、GLM等千億級(jí)第三方開(kāi)源模型,分布式并行訓(xùn)練的性能提升平均也都能達(dá)到150%。
新時(shí)代需要新的評(píng)價(jià)標(biāo)準(zhǔn)
事實(shí)上,如果進(jìn)一步探尋大模型技術(shù)進(jìn)展背后,來(lái)自產(chǎn)業(yè)端的需求變化,就會(huì)發(fā)現(xiàn)文心千帆所折射出的,其實(shí)是云計(jì)算規(guī)則被大模型改變之后,百度智能云自身面對(duì)新評(píng)價(jià)標(biāo)準(zhǔn),給出的思考總結(jié)。
用侯震宇的話說(shuō),就是“從科幻向務(wù)實(shí)的轉(zhuǎn)變”:
在被劃時(shí)代技術(shù)所震驚的最初,大家都期待著大模型有“解決一切”的表現(xiàn)。但當(dāng)技術(shù)的優(yōu)勢(shì)和局限在實(shí)踐中不斷被驗(yàn)證,“效果”和“成本”這兩個(gè)評(píng)價(jià)大模型的關(guān)鍵詞,也逐漸清晰起來(lái)。
這一方面,使得上云使用大模型,成為絕大多數(shù)企業(yè)的首選:人人都想用大模型,還有不少人想打造自己的大模型,但同時(shí),從頭打造大模型依然是一件高投入、高技術(shù)含量的事情。
另一方面,面對(duì)市場(chǎng)上越來(lái)越多的競(jìng)爭(zhēng)者,企業(yè)如何選擇、評(píng)估大模型及背后的云計(jì)算服務(wù),已成為新的需要被探討的問(wèn)題。
而從文心千帆的應(yīng)對(duì)之道中,可以看出來(lái)自產(chǎn)業(yè)的三重新評(píng)估標(biāo)準(zhǔn)已經(jīng)初現(xiàn)雛形——
- 大模型本身的能力
- 煉大模型的基礎(chǔ)設(shè)施能力
- 全棧技術(shù)的積累程度
新在何處?
大模型本身的能力不必過(guò)多解釋,一組數(shù)據(jù)足以說(shuō)明:侯震宇透露,在文心一言開(kāi)始企業(yè)內(nèi)測(cè)以后,在與百度智能云接洽大模型業(yè)務(wù)的客戶中,新客戶的比例已經(jīng)超過(guò)了老客戶的比例,“有大量的機(jī)構(gòu),原先不太愿意用,現(xiàn)在愿意跟我們聊,也愿意去用”——大模型本身,已經(jīng)成為最主要的吸引力來(lái)源。
據(jù)介紹,截止目前,已有超過(guò)300家生態(tài)伙伴參與文心一言內(nèi)測(cè),在400多個(gè)企業(yè)內(nèi)部場(chǎng)景取得測(cè)試成效。
值得關(guān)注的還有兩方面的變化:
其一,是評(píng)估大模型是否“高效好用”,顯然算力已經(jīng)不再是其中的唯一標(biāo)準(zhǔn)。
受限于自身大計(jì)算、大參數(shù)、高成本等特性,大模型此前在落地上一直存在瓶頸。
這也決定了企業(yè)在選擇大模型時(shí),即使輸出效果足夠好,也必然還會(huì)考慮易用性、安全性、高效性、開(kāi)放性、擴(kuò)展性和全面性等諸多方面的因素。
如果拆解企業(yè)打造大模型的方式,會(huì)發(fā)現(xiàn)硬件算力只影響這些因素中的一小部分。
協(xié)同算力、框架、模型、應(yīng)用這四層架構(gòu)打造AI大模型,才能從根本上決定其端到端的輸出效果,是“最佳調(diào)優(yōu)”模式。
打個(gè)比方,對(duì)于大模型而言,想要極致優(yōu)化推理速度和使用成本,算力、框架、模型、應(yīng)用就像是四個(gè)齒輪,各自轉(zhuǎn)速之外,很大程度上還要看它們之間的“配合能力”。
此前,國(guó)內(nèi)外云廠商或多或少都已經(jīng)在軟硬件技術(shù)協(xié)同方面進(jìn)行布局,國(guó)外如亞馬遜、國(guó)內(nèi)阿里都已經(jīng)在芯片層、模型層上發(fā)展了自研技術(shù),微軟則也已經(jīng)在框架層和應(yīng)用技術(shù)上有所準(zhǔn)備。
而目前在四層架構(gòu)上均有自研技術(shù)布局的,就是百度一家。
這一布局成果,如今已經(jīng)在成本降低上有直觀的體現(xiàn):
此前3月份啟動(dòng)內(nèi)測(cè)時(shí),如今不到2個(gè)月,百度大模型文心一言已完成4次技術(shù)版本升級(jí),其推理成本更是已經(jīng)降為原來(lái)的十分之一。
其二,是評(píng)估“生產(chǎn)”大模型的能力時(shí),本質(zhì)上考驗(yàn)的是企業(yè)煉大模型的基礎(chǔ)設(shè)施能力。
算法、算力和數(shù)據(jù),對(duì)于大模型而言缺一不可。值得一提的是,由于大模型的訓(xùn)練和推理都需要大量算力支撐,因此云廠商能把多少算力劃分入AI算力的范疇,比單純的硬件數(shù)量更值得關(guān)注。
更重要的是,三者的綜合運(yùn)用,大模型高效、穩(wěn)定的訓(xùn)練和有效的收斂,離不開(kāi)扎實(shí)的工程基座。
其中涉及的工程問(wèn)題實(shí)際上非常復(fù)雜,包括千卡通信、集群調(diào)度、大規(guī)模分布式文件系統(tǒng)等等。
比如,文心千帆大模型平臺(tái),其實(shí)就是把模型開(kāi)發(fā)、訓(xùn)練、調(diào)優(yōu)、運(yùn)營(yíng)等復(fù)雜過(guò)程封裝成能更高效調(diào)用的工具,來(lái)輸出百度打造大模型的工程經(jīng)驗(yàn)。
“大家可能會(huì)覺(jué)得堆積算力、寫好代碼、然后進(jìn)行模型訓(xùn)練,把它跑起來(lái)就行了。實(shí)際上在訓(xùn)練過(guò)程中會(huì)遇到各種各樣的挑戰(zhàn),很少有人能夠使得一個(gè)大模型訓(xùn)練過(guò)程能夠在連續(xù)一兩天內(nèi)不出問(wèn)題?!卑俣戎悄茉圃朴?jì)算產(chǎn)品解決方案和運(yùn)營(yíng)部總經(jīng)理宋飛介紹。
而百度AI大底座,更是通過(guò)芯片、框架、模型、應(yīng)用四層架構(gòu)之間的高效協(xié)同,在基礎(chǔ)設(shè)施層面上,實(shí)現(xiàn)千卡加速比90%、資源利用率70%,開(kāi)發(fā)效率提升100%。這是AI大底座為大模型的開(kāi)發(fā)和應(yīng)用帶來(lái)的價(jià)值。
每一個(gè)時(shí)代的技術(shù),有每一個(gè)時(shí)代評(píng)價(jià)標(biāo)準(zhǔn)。
而新標(biāo)準(zhǔn)的越辯越明,也往往意味著舊有格局的打破,和換道競(jìng)爭(zhēng)機(jī)會(huì)的到來(lái)。
智能手機(jī)之于非智能手機(jī)如此,電動(dòng)車之于燃油車亦如此。
而現(xiàn)在,催生了大模型,又被大模型打破規(guī)則的云計(jì)算,站在技術(shù)浪潮的最前沿,或許也同樣走到了變化的前夕。
正如李彥宏所說(shuō),大模型應(yīng)用時(shí)代是一個(gè)全新的時(shí)代。
對(duì)于云計(jì)算來(lái)說(shuō),第一批參考案例已經(jīng)到來(lái),更多新時(shí)代的新變化,還會(huì)遠(yuǎn)嗎?