加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 打造行業(yè)版ChatGPT可行嗎?
    • 云知聲ChatGPT行業(yè)版
    • 誰(shuí)最先吃掉ChatGPT紅利?
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

ChatGPT上崗醫(yī)療還有多遠(yuǎn)?哈佛教授親測(cè)表現(xiàn)接近醫(yī)生,云知聲被曝打造行業(yè)版

2023/02/22
538
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

白交 發(fā)自 凹非寺

國(guó)內(nèi)玩家如火如荼入局ChatGPT,其在各行業(yè)出圈也有目共睹。

但具體什么時(shí)候能上崗尚且還不明晰,尤其像一些艱深、壁壘性高的行業(yè),比如醫(yī)療。

現(xiàn)在,一位哈佛醫(yī)學(xué)院教授,就親自下場(chǎng)測(cè)試ChatGPT的表現(xiàn)。

結(jié)果顯示,它在45個(gè)案例中的39個(gè)診斷正確,正確率87%(超過(guò)了現(xiàn)有機(jī)器診斷率的51%);并為30個(gè)案例提供了適當(dāng)?shù)姆衷\建議。

他表示,ChatGPT輔助診斷的表現(xiàn),已經(jīng)接近醫(yī)生。既然如此,那什么時(shí)候可以上崗?

事實(shí)上,這也是目前國(guó)內(nèi)大多數(shù)玩家所面臨的問(wèn)題:紅利在此,如何率先吃掉?

此前我們也系統(tǒng)性地梳理過(guò)復(fù)刻中國(guó)版ChatGPT背后的技術(shù)與生態(tài)難度,顯然不是短期就可以實(shí)現(xiàn)的。

現(xiàn)在已經(jīng)衍生出來(lái)一種新思路:直接打造行業(yè)垂直版ChatGPT。

這種方式是否可行?

打造行業(yè)版ChatGPT可行嗎?

ChatGPT的打造,技術(shù)核心繞不開(kāi)算力、數(shù)據(jù)和算法三要素。

算力方面,OpenAI背靠微軟這頭奶?!獡碛?8.5萬(wàn)個(gè)CPU核心、1萬(wàn)個(gè)英偉達(dá)V100 GPU,光是訓(xùn)練一個(gè)GPT-3,費(fèi)用就高達(dá)460萬(wàn)美元;數(shù)據(jù)上,GPT系列幾經(jīng)迭代優(yōu)化,一度驚艷眾人的GPT-3就有1750億參數(shù),而上一版本GPT-2只有15億參數(shù);算法自然也有多年深厚的積累,否則也不能出現(xiàn)“類人”自主學(xué)習(xí)特征,而且進(jìn)一步展現(xiàn)出快速適應(yīng)多領(lǐng)域、多場(chǎng)景的能力。

再加上生態(tài)反哺技術(shù),形成迭代閉環(huán)。OpenAI自GPT-3開(kāi)始就以開(kāi)放接口的形式,構(gòu)建起了專屬“GPT生態(tài)”。據(jù)gpt3demo網(wǎng)站統(tǒng)計(jì),目前已有656個(gè)調(diào)用GPT-3系列模型開(kāi)發(fā)的應(yīng)用程序。

這樣的技術(shù)與生態(tài)壁壘,決定了復(fù)刻ChatGPT并非那么容易。既然如此,垂直版ChatGPT的解決思路也開(kāi)始在行業(yè)中探討。

首先從技術(shù)上來(lái)看,他們的核心挑戰(zhàn)主要在于以更少的參數(shù),比如以百億規(guī)模參數(shù)量,在垂直領(lǐng)域的任務(wù)達(dá)到或超過(guò)ChatGPT的效果。

這可能比復(fù)現(xiàn)ChatGPT更難,因?yàn)閰?shù)數(shù)量要小很多,不能僅僅依賴“暴力美學(xué)”,還要有高超的模型設(shè)計(jì)和壓縮技巧。

另外一個(gè)挑戰(zhàn)是數(shù)據(jù)來(lái)源的不同。

像谷歌、微軟他們其實(shí)有天然的通用數(shù)據(jù)來(lái)源,但專用數(shù)據(jù)積累不能跟垂直玩家相比。

尤其像醫(yī)療等民生行業(yè),專業(yè)性強(qiáng)覆蓋面廣,所需的高質(zhì)量數(shù)據(jù)可能并不比ChatGPT小,且大部分?jǐn)?shù)據(jù)不是網(wǎng)上可以抓取的。

但對(duì)多年深根于此的垂直玩家來(lái)說(shuō),他們?cè)缫褬?gòu)筑起自己的產(chǎn)業(yè)生態(tài),有豐富的行業(yè)數(shù)據(jù)和知識(shí)積累,為復(fù)現(xiàn)ChatGPT奠定了必要的基礎(chǔ)。

而且從價(jià)值需求來(lái)看,垂直行業(yè)所代表的價(jià)值是實(shí)實(shí)在在的。像醫(yī)療本身需求就不小,一旦ChatGPT落地醫(yī)療,所代表的社會(huì)價(jià)值很大。

以往用戶們會(huì)習(xí)慣性使用的用搜索、APP來(lái)幫助診斷自己的疾病,但往往可能收效甚微。

哈佛醫(yī)學(xué)院教授Ateev Mehrotra曾測(cè)試,現(xiàn)有的在線診斷器平均正確率僅在51%,而ChatGPT則有87%,因此他認(rèn)為ChatGPT有可能成為醫(yī)療診斷的游戲規(guī)則改變者。

為了加速ChatGPT應(yīng)用落地,從技術(shù)難度、價(jià)值需求等維度看,打造垂直版ChatGPT是可行的。

而現(xiàn)在國(guó)內(nèi)有AI玩家,已經(jīng)在這樣做了。

云知聲ChatGPT行業(yè)版

最新曝光的進(jìn)展,智能語(yǔ)音賽道獨(dú)角獸云知聲正在推進(jìn)ChatGPT行業(yè)版的建設(shè)——

以醫(yī)療作為切入口,構(gòu)建ChatGPT醫(yī)療行業(yè)版,同時(shí)基于ChatGPT行業(yè)版構(gòu)建平臺(tái),快速擴(kuò)展到其他領(lǐng)域,再利用領(lǐng)域模型集成MoE(Mixture of Experts)技術(shù),訓(xùn)練得到通用ChatGPT模型。

而這種從專用到通用的思路。其實(shí)是云知聲一貫的“U+X“做法。在這里,“U”指的通用大模型算法研發(fā)及高效訓(xùn)練底座平臺(tái);“X”則是應(yīng)用于多個(gè)行業(yè)領(lǐng)域的專用大模型版本。

事實(shí)上這也正在成為不少企業(yè)入局ChatGPT的思路,這樣一來(lái),可以利用已有的專用數(shù)據(jù)優(yōu)勢(shì)。

不過(guò)也不是那么容易走的,更何況云知聲選擇的,還是對(duì)生成內(nèi)容質(zhì)量要求更高的醫(yī)療行業(yè)作為切入口。

最首要的難題,是要提高醫(yī)療知識(shí)的可靠程度。ChatGPT最擅長(zhǎng)的,就是一本正經(jīng)地胡說(shuō)八道。放在現(xiàn)在Bing上聊天搜索、內(nèi)容生產(chǎn)其實(shí)問(wèn)題不大,用戶們也樂(lè)在其中。

但應(yīng)用在行業(yè)中,往往讓非專業(yè)人士難以察覺(jué),這會(huì)引發(fā)各種風(fēng)險(xiǎn)。因此行業(yè)版ChatGPT要杜絕一切胡說(shuō)八道,尤其像醫(yī)療、教育、工業(yè)等行業(yè),內(nèi)容生成要求極高容錯(cuò)率很低,也對(duì)數(shù)據(jù)的質(zhì)量要求也就更高了。

其次,就是實(shí)現(xiàn)行業(yè)中的“性價(jià)比”。任何一項(xiàng)技術(shù)能夠大規(guī)模落地,都必須要解決「如何以有限的資源,實(shí)現(xiàn)效果的最大化」問(wèn)題。

這也是ChatGPT行業(yè)落地的必經(jīng)之路——模型能以更小的參數(shù)規(guī)模,達(dá)到與ChatGPT同樣的效果。這也就給這些企業(yè)帶來(lái)了不小難題。

事實(shí)上,云知聲也坦言,ChatGPT行業(yè)版的參數(shù)可能也需要達(dá)到百億量級(jí)規(guī)模,要做出效果并實(shí)現(xiàn)規(guī)模化應(yīng)用挑戰(zhàn)也不小。

從某種程度上說(shuō),打造行業(yè)版的ChatGPT比現(xiàn)在通用的ChatGPT還要更難,但到真正ChatGPT行業(yè)落地時(shí),這些問(wèn)題又都必須得解決。概括來(lái)說(shuō),就是實(shí)現(xiàn)ChatGPT工程化能力。

這是每個(gè)躬身入局者,繞不開(kāi)但必須得過(guò)的路。

在此基礎(chǔ)上,毫無(wú)疑問(wèn)的是,云知聲的選擇更難——醫(yī)療作為切入口。這是始終被認(rèn)為是行業(yè)壁壘高、專業(yè)性強(qiáng)、技術(shù)難度制高點(diǎn)的領(lǐng)域,也是為什么相較于其他行業(yè)的盛況,醫(yī)療AI玩家就顯得少之又少的原因。

但一旦將醫(yī)療版ChatGPT打通,那么其他領(lǐng)域的實(shí)現(xiàn),包括最后的通用大模型也就事半功倍了。

作為成立于2012年的AI公司,他們一直密切關(guān)注AI前沿技術(shù),并積極推動(dòng)技術(shù)產(chǎn)業(yè)化應(yīng)用,包括2012年的深度學(xué)習(xí)算法升級(jí)和產(chǎn)業(yè)化應(yīng)用,到2016年Atlas超算平臺(tái)、知識(shí)圖譜和全棧AI技術(shù)應(yīng)用,到現(xiàn)在基于ChatGPT框架的AGI認(rèn)知技術(shù)升級(jí)。

同時(shí),在醫(yī)療行業(yè)有近10年深耕,積累的行業(yè)知識(shí)、數(shù)據(jù)和應(yīng)用,還獲得了2019年北京市科技進(jìn)步一等獎(jiǎng)。

在回應(yīng)是否有信心打造ChatGPT行業(yè)版時(shí),云知聲方面表示:完全有信心。

前面總結(jié),打造ChatGPT離不開(kāi)高質(zhì)量的數(shù)據(jù),領(lǐng)先的算法和充分的算力。而對(duì)于垂直版ChatGPT還需要更深厚的工程化能力。

從這幾方面來(lái)看,云知聲的確具有行業(yè)參考性。

數(shù)據(jù)方面,近10年來(lái)云知聲積累了全方位的行業(yè)數(shù)據(jù),包括面向患者的導(dǎo)診、預(yù)問(wèn)診、患者教育和隨訪系統(tǒng),也有面向臨床的語(yǔ)音病歷,病歷質(zhì)控,單病種質(zhì)控和醫(yī)療風(fēng)險(xiǎn)管理系統(tǒng),已有近400家醫(yī)院落地使用。據(jù)稱數(shù)據(jù)規(guī)模已達(dá)到了5T,為醫(yī)療行業(yè)語(yǔ)言大模型提供數(shù)據(jù)基礎(chǔ)。

算法方面,而ChatGPT所代表的認(rèn)知智能,本身就是云知聲核心技術(shù)優(yōu)勢(shì)。他們構(gòu)建了國(guó)內(nèi)最大的醫(yī)療知識(shí)圖譜之一。從2019年至2022年,云知聲的認(rèn)知智能技術(shù)在國(guó)內(nèi)外相關(guān)評(píng)測(cè)中榮獲7冠5亞。其自主研發(fā)的醫(yī)療預(yù)訓(xùn)練語(yǔ)言模型CirBERTa一度登頂中文醫(yī)療信息處理挑戰(zhàn)榜榜首。

算力上,云知聲超算平臺(tái)浮點(diǎn)計(jì)算能力可達(dá)8億億次/秒,可為千億級(jí)參數(shù)規(guī)模模型提供算力保障。

而在大模型工程化方面,云知聲已經(jīng)研發(fā)了CirBERTa模型,復(fù)現(xiàn)了GPT-2模型,并利用模型壓縮和知識(shí)蒸餾機(jī)制,實(shí)現(xiàn)了線上推理效率的近百倍加速,為大模型的廣泛應(yīng)用奠定了基礎(chǔ)。

此外作為行業(yè)版ChatGPT,內(nèi)容質(zhì)量保障也是關(guān)鍵一環(huán)。

云知聲給出的解決方案是,利用應(yīng)用在CirBERTa的持續(xù)學(xué)習(xí)和知識(shí)嵌入技術(shù),基于已有知識(shí)圖譜積累,優(yōu)化ChatGPT模型的知識(shí)獲取和更新機(jī)制。

據(jù)介紹,這樣一來(lái)可以保證ChatGPT回答中的知識(shí)正確性,與此同時(shí)還可以給出知識(shí)溯源信息。

另外,利用云知聲業(yè)內(nèi)領(lǐng)先的病歷質(zhì)控技術(shù),可以自動(dòng)發(fā)現(xiàn)生成的病歷中的問(wèn)題,進(jìn)而自動(dòng)生成作為ChatGPT核心技術(shù)的基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF,Reinforcement Learning from Human Feedback)所需的用戶反饋數(shù)據(jù),加速模型的優(yōu)化。

誰(shuí)最先吃掉ChatGPT紅利?

最后回到事件本身,此前論及ChatGPT對(duì)行業(yè)的價(jià)值,都是從宏觀上的產(chǎn)業(yè)生態(tài)和模式創(chuàng)新上談,比如對(duì)人機(jī)交互、信息分發(fā)、內(nèi)容生產(chǎn)等方面。

如今隨著越來(lái)越多的垂直企業(yè)入局,ChatGPT對(duì)企業(yè)的意義也呼之欲出——一種全新AGI的技術(shù)范式選擇:基于“大規(guī)模通用基礎(chǔ)模型+輕量級(jí)行業(yè)應(yīng)用優(yōu)化”的行業(yè)知識(shí)整合和問(wèn)題解決方法。

以往這些場(chǎng)景玩家,對(duì)于AI的探索可能處于“看山是山、看山不是山”的懵懂狀態(tài),現(xiàn)在出現(xiàn)了一座“更小,而且明知會(huì)有路的山”。

ChatGPT所表現(xiàn)出來(lái)的“智能”,給他們帶來(lái)了一種明確的技術(shù)方向。

云知聲CEO黃偉也深有體會(huì),甚至于相較于AlphaGo,他認(rèn)為ChatGPT所帶來(lái)的影響要深厚得多,相當(dāng)于一場(chǎng)新的“工業(yè)革命”。

這場(chǎng)革命最大的優(yōu)勢(shì)是,通過(guò)自監(jiān)督注意力機(jī)制,能夠充分利用海量無(wú)監(jiān)督數(shù)據(jù)訓(xùn)練通用基礎(chǔ)模型,并將感知、認(rèn)知與生成,用統(tǒng)一框架實(shí)現(xiàn)“端到端”的整合,直接從高質(zhì)量生成結(jié)果上去呈現(xiàn)機(jī)器智能。機(jī)器采取的人工引導(dǎo)的數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)方法,與人類的邏輯思維方式是完全不一樣的,類似飛機(jī)所采用的噴氣式“空氣動(dòng)力學(xué)”機(jī)制,與鳥(niǎo)類采取的“扇動(dòng)翅膀”方式完全不同。

不管是對(duì)整個(gè)產(chǎn)業(yè),還是單個(gè)企業(yè)而言,ChatGPT所帶來(lái)的價(jià)值確實(shí)讓他們不跟不行。

尤其對(duì)于一些場(chǎng)景玩家來(lái)說(shuō),他們還是最有可能吃掉ChatGPT紅利的一撥人。

他們有場(chǎng)景有數(shù)據(jù)、有深厚的行業(yè)壁壘,一旦具備ChatGPT能力,就可以率先在行業(yè)落地。這是其他玩家所不能及的先發(fā)優(yōu)勢(shì)。

上一次AI浪潮來(lái)襲時(shí),最終也是場(chǎng)景玩家率先吃掉AI紅利。只不過(guò)現(xiàn)在ChatGPT是直接以技術(shù)路徑出現(xiàn),落地速度自然要比以往快得多。

云知聲CEO黃偉也給出了個(gè)明確的時(shí)間點(diǎn):

年內(nèi)就會(huì)實(shí)現(xiàn)成功應(yīng)用落地的方案。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜