金磊 發(fā)自 第四范式大廈
量子位 | 公眾號(hào) QbitAI
國產(chǎn)大模型能大戰(zhàn),又有一員猛將入局。
就在剛剛,第四范式自研大模型“式說”(4Paradigm SageGPT)在上線2個(gè)月后,終于來了一波能力首秀。
而且縱觀整場(chǎng)活動(dòng)的發(fā)布,最直觀的感受就是:不一樣,著實(shí)不一樣。
怎么說?
首先,他敢在現(xiàn)場(chǎng)演示的時(shí)候,拔!網(wǎng)!線!
效果是這樣的,例如上傳一張《狂飆》劇照之后,讓“式說”描述一下照片,它的回答是:
這張照片中有一組穿著制服的男子站在一張桌子前。
而后追問劇照中有幾個(gè)人,“式說”也立即給出了答案:9個(gè)。
再來看下以文生圖的能力,先讓它畫一下“獅子頭”:
不難看出,生成圖片的效果是過關(guān)的;此時(shí)現(xiàn)場(chǎng)很多人立即開口說到:“紅燒獅子頭”呢?
第四范式不在怕的,馬上在現(xiàn)場(chǎng)演示了起來:
接下來,是代碼生成方面,第四范式在現(xiàn)場(chǎng)直接讓“式說”秀了一下“Python猜隨機(jī)數(shù)”:
面對(duì)敢于拔網(wǎng)線的live演示,現(xiàn)場(chǎng)觀眾也是驚嘆與掌聲不斷。
但“不一樣”的點(diǎn)還不只于此,而且上面展示的這些能力,也僅僅是“開胃菜”。
因?yàn)榈谒姆妒降腉PT,并不是“你以為的你以為”,而是不同于其它廠商的一套玩法——
用AIGC的能力重構(gòu)軟件(AIGS),目的就是以此來提高企業(yè)軟件的用戶體驗(yàn)和開發(fā)效率。
例如讓“式說”分析集裝箱及小箱子尺寸,并設(shè)計(jì)裝箱方案。
它就會(huì)先向用戶咨詢與之相關(guān)的細(xì)節(jié)的信息,然后便一步一步執(zhí)行它的方案,還是會(huì)給出思考過程的那種。
對(duì)此,第四范式CEO戴文淵在現(xiàn)場(chǎng)給出了他的解釋:
C端產(chǎn)品已經(jīng)逼近用戶體驗(yàn)的上限,而B端的企業(yè)級(jí)軟件往往是個(gè)十分復(fù)雜的執(zhí)行系統(tǒng)。
目前這些B端軟件極為復(fù)雜的交互體驗(yàn),以及復(fù)雜性帶來的極低開發(fā)效率,恰恰為生成式AI留下足夠大的重構(gòu)和改造空間。
不是你以為的GPT
整體來看,“式說”之所以能夠擁有上面展示的這般能力,是因?yàn)樵谒谋澈髶碛腥蠹夹g(shù)“利器”。
首先就是多模態(tài)大語言模型技術(shù)。
“式說”在最初2月發(fā)布之際所支持的能力是單一模態(tài)的,即文本對(duì)話能力。
而時(shí)隔僅1個(gè)月,第四范式便將語音、圖像、表格、視頻等多模態(tài)輸入及輸出能力融入了進(jìn)來。
第二大技術(shù)“利器”,則是企業(yè)級(jí)Copilot。
值得一提的是,這個(gè)Copilot并非是微軟、GitHub的那個(gè)Copilot。
而是第四范式通過自研大語言模型對(duì)專業(yè)領(lǐng)域的知識(shí)做理解,以便幫助用戶實(shí)現(xiàn)某些功能。
例如在開發(fā)的過程中,在企業(yè)級(jí)Copilot的加持之下,所需的成本就只是把API對(duì)接進(jìn)來即可。
什么概念?
這就好比ChatGPT Plugins一般,只需要安裝特定領(lǐng)域第三方的插件,就能讓ChatGPT在這個(gè)領(lǐng)域變得更加聰明、專業(yè)。
同樣的,當(dāng)企業(yè)使用“式說”時(shí),Copilot就可以調(diào)出企業(yè)軟件的有關(guān)功能,員工可以通過語音、圖像、表格、視頻等形式獲取想要的答案。
例如在航空制造業(yè),軟件設(shè)計(jì)人員只需要上傳一些圖片,即可提出要求讓“式說”在上百萬的工裝零件庫中找出相似零件,并進(jìn)行組裝:
由此可見,“多模態(tài)大語言模型+Copilot”這套組合打法,可以讓AIGC在產(chǎn)業(yè)實(shí)際落地過程中更加得心應(yīng)手。
但若是僅僅如此,依舊還是遠(yuǎn)遠(yuǎn)不夠的。
因?yàn)樯鲜瞿芰χ荒苋?yīng)對(duì)某些單一的、碎片化的任務(wù),而產(chǎn)業(yè)中的問題往往更加紛繁復(fù)雜。
就好比我們?cè)谟肞hotoshop去美化一張圖片時(shí),往往需要涉及裁剪、調(diào)濾鏡、調(diào)亮度等等多個(gè)步驟。
不過往往人們想要的結(jié)果是一步到位,直接說一句“給我生成某個(gè)產(chǎn)品的海報(bào)”,所問即所得。
而這種情況放在企業(yè)生產(chǎn)過程中,不僅是要完整結(jié)果那么簡(jiǎn)單,還需要對(duì)生成的過程做到“不黑箱”,步步均可解釋。
為此,第四范式便在上述兩大“利器”之上,引入了第三個(gè)關(guān)鍵技術(shù)——企業(yè)級(jí)思維鏈(Chain of Thought,CoT)。
思維鏈這個(gè)概念最早是由谷歌提出,是一種特殊的上下文學(xué)習(xí)。
它不同于標(biāo)準(zhǔn)提示只是給出輸入-輸出對(duì)的示例,思維鏈提示還會(huì)額外增加一段推理的過程。
員工只需要交代一個(gè)任務(wù),它不僅能夠給你一個(gè)較為完美的答案,而且還會(huì)把期間所有流程是怎么思考的、如何執(zhí)行的,一一都解釋清楚。
值得一提的是,第四范式這種企業(yè)級(jí)思維鏈?zhǔn)轻槍?duì)特定領(lǐng)域?qū)W習(xí)的“套路”,是更具專業(yè)性、可信度的那種。
不過有一說一,第四范式今天的發(fā)布,并非是趁著這波大熱潮一蹴而就的事情。
據(jù)第四范式介紹,早在BERT出來的時(shí)候,范式研究院就開始關(guān)注并投入在這個(gè)技術(shù)領(lǐng)域,GPT3出來以后就更加明確了這個(gè)方向。
與此同時(shí),第四范式也坦誠地說“相比今年的投入,過去幾年肯定還是有差距的”。
整體來看第四范式的技術(shù)路線,大致可以總結(jié)為三步:
式說1.0:擁有生成語言對(duì)話能力,主要場(chǎng)景是文庫問答;相當(dāng)于讓GPT學(xué)習(xí)的企業(yè)知識(shí)后,可以自然地與員工交互,解答專業(yè)問題,并且是可溯源的。
式說2.0:加入文本、語音、圖像、表格、視頻等多模態(tài)輸入及輸出能力,并增加了企業(yè)級(jí)Copilot能力。
式說3.0:發(fā)力Copilot和思維鏈,提升使用傳統(tǒng)B端企業(yè)軟件的體驗(yàn)。
為何如此布局?
一言蔽之,AIGS,即用AIGC的能力重構(gòu)軟件。
畢竟能夠用起來的技術(shù)好技術(shù),雖然AIGC熱潮很火爆、諸如GPT-4這般效果非常強(qiáng)悍的技術(shù)出現(xiàn)了,但它們之于產(chǎn)業(yè),目前又帶來了怎么技術(shù)價(jià)值?
這便是第四范式所思考的根本問題,而且戴文淵表示:
要做到AIGS,大模型未必需要是知識(shí)廣博、十項(xiàng)全能冠軍的通才。
更重要的在于模型具備Copilot和思維鏈CoT的能力。
在第四范式看來,傳統(tǒng)B端軟件先是出現(xiàn)過體驗(yàn)上的不足,例如企業(yè)內(nèi)的報(bào)銷系統(tǒng)、HR系統(tǒng)、OA系統(tǒng)等,可以說是“菜單接菜單,菜單何其多”。
而大語言模型的到來,使得這些復(fù)雜系統(tǒng)可以通過更好的交互方式去實(shí)現(xiàn)功能的調(diào)用,這是顛覆之一。
例如在AI改造后的企業(yè)軟件,以預(yù)定會(huì)議室為例,不再需要在選日期、選時(shí)間段、選會(huì)議室了。
而是像跟秘書對(duì)話一般,直接來一句“幫我預(yù)定某某時(shí)間段的會(huì)議室”,即可。
在企業(yè)軟件開發(fā)上,亦是如此。
因?yàn)閭鹘y(tǒng)B端企業(yè)軟件往往都是高度定制化、基于菜單式的開發(fā),每次一個(gè)功能升級(jí),又要周而復(fù)始的經(jīng)歷原型圖、設(shè)計(jì)、開發(fā)等,至少是月級(jí)別的開發(fā)時(shí)間。
但由于新的交互形式的出現(xiàn),現(xiàn)在功能和邏輯只需在數(shù)據(jù)、API和內(nèi)容層面下功夫即可,變成了天級(jí)別的開發(fā)效率,這又是顛覆之一。
正如第四范式所說:
我們看到大模型能夠帶來用戶體驗(yàn)的提升,開發(fā)效率的提升,所以一定會(huì)形成軟件行業(yè)的飛躍,就是誰率先能做出來的問題。
當(dāng)軟件產(chǎn)業(yè)被改造以后,整個(gè)行業(yè)的業(yè)務(wù)價(jià)值、商業(yè)模式都會(huì)得到飛躍。這是一個(gè)巨大的市場(chǎng)。
那么AIGS這條路,具體又該如何走?
第四范式對(duì)這個(gè)問題也給出了自己的見解,主要分為三大階段:
第一階段:Copilot調(diào)動(dòng)不同的信息、數(shù)據(jù)、應(yīng)用,作為助手完成用戶的指令。相當(dāng)于在所有企業(yè)級(jí)軟件系統(tǒng)里,配備一個(gè)指揮官。指揮官聽用戶的指揮,比如“把照片亮度調(diào)亮20%”。
第二階段:Copilot+基于企業(yè)規(guī)則的“知識(shí)庫”,AI能夠參照規(guī)則做復(fù)雜工作,比如AI查詢了“人像美化”知識(shí)庫后,能執(zhí)行把照片修好看的步驟。
第三階段:Copilot+CoT。軟件系統(tǒng)的使用行為最終會(huì)被大模型學(xué)會(huì),形成AI針對(duì)這個(gè)領(lǐng)域的思維鏈,意味著“把照片處理得更好看”這種復(fù)雜指令,AI能自動(dòng)地按照步驟完成。
但更深一層的,若是細(xì)看下第四范式的過往,就不難發(fā)現(xiàn)如此布局背后的本質(zhì)——“做企業(yè)級(jí)”、“與軟件公司打交道”似乎一直是刻在第四范式的一個(gè)基因。
那么這一次,第四范式是否能用AIGC重塑產(chǎn)業(yè)軟件的新范式,是值得期待了。