亚洲一区精品中文字幕,国产大神高清视频在线观看

楊凈蕭簫發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

ChatGPT火熱，國(guó)內(nèi)玩家接連爆出加緊開發(fā)中國(guó)版ChatGPT的消息。

現(xiàn)在又最新獲悉：科大訊飛也加入此列中。

并且發(fā)布就會(huì)是直接落地場(chǎng)景的產(chǎn)品，具體時(shí)間也已經(jīng)確定：5月6日。

這是ChatGPT火得一塌糊涂之下，最快給出具體時(shí)間的國(guó)產(chǎn)玩家。

更早之前，一眾互聯(lián)網(wǎng)玩家包括百度360阿里網(wǎng)易京東官宣入局之際，關(guān)于誰(shuí)能打造中國(guó)版ChatGPT的問題也爭(zhēng)得一塌糊涂。

事實(shí)上，自ChatGPT上線以來(lái)，作為A股AI龍頭科大訊飛就備受市場(chǎng)關(guān)注，一直被基金瘋狂調(diào)研和熱捧。

據(jù)證券時(shí)報(bào)消息，截至2022年四季度末，80只基金重倉(cāng)持有科大訊飛6100萬(wàn)股，去年四季度基金大幅加倉(cāng)1807萬(wàn)股。

有著數(shù)十年技術(shù)產(chǎn)業(yè)積累的科大訊飛，也被認(rèn)為是國(guó)內(nèi)最有希望打造ChatGPT的玩家之一。

但問題是，包括訊飛在內(nèi)的中國(guó)玩家是否真的有希望復(fù)刻ChatGPT？至少?gòu)募夹g(shù)維度來(lái)看，又應(yīng)該具備什么樣的條件？

打造中國(guó)版ChatGPT需要什么條件？

ChatGPT的打造，核心繞不過算法、數(shù)據(jù)、算力三要素。

算力是支撐背后大語(yǔ)言模型訓(xùn)練的硬件基礎(chǔ)；數(shù)據(jù)，影響模型能力強(qiáng)弱甚至生成質(zhì)量的關(guān)鍵；算法則包括模型架構(gòu)和優(yōu)化方法，決定著模型的核心技能。

如果說前兩者算力和數(shù)據(jù)是資本資源積累，畢竟訓(xùn)練一個(gè)1750億參數(shù)的GPT-3就得花費(fèi)460萬(wàn)美元；那么算法是ChatGPT區(qū)別于其他的獨(dú)到之處。

作為一個(gè)對(duì)話式AI，ChatGPT所具備的技能包括多語(yǔ)言文本生成、具備大量世界知識(shí)、零樣本生成、代碼理解和生成、對(duì)話能力等。

更概括地來(lái)說，其強(qiáng)大之處在于同時(shí)具備知識(shí)、推理和溝通能力——

也是實(shí)現(xiàn)認(rèn)知智能必備的幾項(xiàng)能力。

首先是知識(shí)能力。為了讓ChatGPT既具備應(yīng)用數(shù)據(jù)能力、又能生成符合人類要求的答案，要求它能具備大量世界知識(shí)和基礎(chǔ)常識(shí)，且符合人類輸出要求。

這背后不僅離不開ChatGPT“底座”大語(yǔ)言模型的參數(shù)量和算法架構(gòu)，更離不開極高的數(shù)據(jù)質(zhì)量。

值得注意的是，ChatGPT比其他AI模型生成質(zhì)量高的原因，在于它更了解人類的“雷區(qū)”，包括回答中立客觀、不輸出違規(guī)內(nèi)容、不回答認(rèn)知范圍之外的問題等。

嚴(yán)格來(lái)說，這不僅需要各行業(yè)通用的高質(zhì)量數(shù)據(jù)，而且還需要經(jīng)過大量數(shù)據(jù)清洗和人工標(biāo)注。

這種方法被命名為基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF），需要經(jīng)過大量各行各業(yè)的人工標(biāo)注，僅憑模型自身無(wú)法達(dá)到這樣的效果。

隨后是推理能力。這包括理解并生成代碼等技能，讓模型能像人一樣，一步步思考并推算目標(biāo)結(jié)果。

這里面考驗(yàn)的又不僅僅是代碼和語(yǔ)言數(shù)據(jù)量，同樣還強(qiáng)調(diào)模型的零樣本生成能力和復(fù)雜推理能力。

具體而言，零樣本生成指的是模型完成沒見過的新任務(wù)的能力，而代碼生成更是考驗(yàn)?zāi)Ｐ透鶕?jù)任務(wù)目標(biāo)，一步步推理生成最終結(jié)果的能力。

最后便是溝通能力，即多語(yǔ)言文本生成、對(duì)話能力等。

ChatGPT之所以在溝通能力上有所進(jìn)步，是因?yàn)樗軐W(xué)會(huì)基于之前的對(duì)話內(nèi)容生成新輸出，而并非局限于當(dāng)前對(duì)話中、導(dǎo)致無(wú)法理解代詞或暗含前文信息點(diǎn)的詞。

這背后除了要求模型在預(yù)訓(xùn)練時(shí)的語(yǔ)言文本具有多樣性，還必須增加如指令學(xué)習(xí)在內(nèi)的任務(wù)，確保模型能更好地聽懂人類對(duì)話中的要求，并準(zhǔn)確合理地實(shí)現(xiàn)。

綜上來(lái)看，ChatGPT在各方面都提出了不低的要求，國(guó)內(nèi)玩家要想打造這樣的模型，就必須在NLP乃至認(rèn)知智能相關(guān)的算法上，實(shí)現(xiàn)深厚積淀。

國(guó)內(nèi)玩家有希望嗎？

既然如此，那么國(guó)內(nèi)的玩家來(lái)打造ChatGPT有希望嗎？

從目前已被曝出玩家來(lái)看，主要有兩類企業(yè)想要搶占ChatGPT的高地。

一類是網(wǎng)絡(luò)搜索領(lǐng)域，這個(gè)被認(rèn)為ChatGPT率先顛覆的場(chǎng)景，微軟谷歌之爭(zhēng)也在此再次打響。而回到國(guó)內(nèi)，搜索引擎的兩大巨頭都表示對(duì)ChatGPT的持續(xù)關(guān)注。

一邊，百度官宣即將上線文心一言；另一邊，周鴻祎也肯定表示：360不會(huì)放棄對(duì)ChatGPT這門技術(shù)的研究和跟蹤。

另一類則是其他專業(yè)領(lǐng)域的玩家，比如聚焦于電商物流的阿里京東、文娛場(chǎng)景下的騰訊網(wǎng)易，還有像教育醫(yī)療場(chǎng)景深耕的科大訊飛……

不妨就從這兩類玩家入手，以百度和科大訊飛為例，來(lái)看看是否真的有希望。他們一個(gè)是搜索引擎代表，一個(gè)所代表的場(chǎng)景有廣泛的社會(huì)價(jià)值。

如前所言，想要打造ChatGPT，需要算法、數(shù)據(jù)和算力三個(gè)方面。

首先從算法上，目前國(guó)內(nèi)很多公司都有NLP技術(shù)和預(yù)訓(xùn)練語(yǔ)言模型的研究和開發(fā)。百度有文心大模型，而AI龍頭科大訊飛自然更是在這兩方面，有諸多研究積累——

在NLP所在的認(rèn)知智能領(lǐng)域，科大訊飛主導(dǎo)承建了認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室（科技部首批20家標(biāo)桿全國(guó)重點(diǎn)實(shí)驗(yàn)室之一），多年來(lái)始終保持關(guān)鍵核心技術(shù)處于世界前沿水平，比如在去年就獲得CommonsenseQA 2.0、OpenBookQA等12項(xiàng)認(rèn)知智能領(lǐng)域權(quán)威評(píng)測(cè)的第一；

而在預(yù)訓(xùn)練語(yǔ)言模型上，還面向認(rèn)知智能領(lǐng)域陸續(xù)開源了6大類、超過40個(gè)通用領(lǐng)域的系列中文預(yù)訓(xùn)練語(yǔ)言模型，成為業(yè)界最廣泛流行的中文預(yù)訓(xùn)練模型系列之一，在Github獲13346顆星，位列中文預(yù)訓(xùn)練模型星標(biāo)數(shù)第一。

從這個(gè)維度上看，中國(guó)玩家是有希望造出一個(gè)類ChatGPT模型。

但要造出一個(gè)高質(zhì)量的語(yǔ)言模型，需要大量的數(shù)據(jù)和計(jì)算資源。

數(shù)據(jù)方面，諸多現(xiàn)象表明，數(shù)據(jù)多少是決定模型智能與否的關(guān)鍵。一度驚艷眾人的GPT-3就有1750億參數(shù)，而上一版本GPT-2只有15億參數(shù)。

百度360這樣的搜索引擎玩家，有著天然的通用數(shù)據(jù)來(lái)源。不過之后的數(shù)據(jù)清洗和人工標(biāo)注也是難度不小的工程。

而像科大訊飛，雖然沒有像前兩者有通用數(shù)據(jù)上的優(yōu)勢(shì)。但在教育、醫(yī)療這種高壁壘、高門檻的領(lǐng)域有規(guī)?；膶I(yè)數(shù)據(jù)積累，并且有在訊飛輸入法、訊飛開放平臺(tái)、消費(fèi)辦公類產(chǎn)品帶來(lái)的大量數(shù)據(jù)，

待到ChatGPT行業(yè)落地時(shí)，可以迅速占領(lǐng)市場(chǎng)高地。

再來(lái)看計(jì)算資源方面，實(shí)際上看的是愿意投入的成本有多少。

OpenAI背靠微軟這樣一頭算力奶牛——擁有28.5萬(wàn)個(gè)CPU核心、1萬(wàn)個(gè)英偉達(dá)V100 GPU，光是訓(xùn)練一個(gè)GPT-3，費(fèi)用就高達(dá)460萬(wàn)美元。

國(guó)內(nèi)像百度、科大訊飛這類數(shù)十年的AI玩家，自然有諸多算力和資金的積累。而且也有生態(tài)鏈上的合作伙伴，想必也會(huì)是水到渠成的。

巧合的是，訊飛在今年年初提出了要開啟高質(zhì)量發(fā)展——將在未來(lái)5年實(shí)現(xiàn)500億根據(jù)地業(yè)務(wù)營(yíng)收、200億毛利，可提供物質(zhì)保障；另一方面，還有中國(guó)玩家繞不開的國(guó)產(chǎn)替代的考量，近年來(lái)訊飛一直推進(jìn)在算力和算法上的自主可控。

據(jù)官方數(shù)據(jù)，目前研發(fā)訓(xùn)練服務(wù)器已經(jīng)開始進(jìn)入國(guó)產(chǎn)化，切換之后效率有的是原來(lái)平臺(tái)的 70-80%，有的效率是超原來(lái)平臺(tái)100+%。另外在算法上，也啟動(dòng)了推理服務(wù)器的國(guó)產(chǎn)替代；像部分產(chǎn)品，學(xué)習(xí)機(jī)芯片已經(jīng)全部切換成國(guó)產(chǎn)自主。

不可否認(rèn)的是，我們跟ChatGPT是有先天的技術(shù)差距。但至少?gòu)乃惴?、算力和?shù)據(jù)這三個(gè)基本盤來(lái)看，想要打造一個(gè)中國(guó)版ChatGPT也并非沒有希望。

中美在打造ChatGPT上的差異

重新回到事件本身，就在一眾中國(guó)玩家開始著手打造類ChatGPT產(chǎn)品之際，一個(gè)繞不開的問題是，中國(guó)明明不缺ChatGPT技術(shù)，為什么不是中國(guó)先誕生ChatGPT？中美之間在打造ChatGPT上差異有多大？

背后原因在此之前也沒有進(jìn)行系統(tǒng)性梳理過。歸結(jié)起來(lái)，主要有三個(gè)層面。

其一，AI應(yīng)用落地的行業(yè)路線差異。

ChatGPT作為AGI（通用人工智能）技術(shù)代表，對(duì)于商業(yè)化落地而言，本身不是一個(gè)“好生意”。

之所以這么說，是因?yàn)樵谙喈?dāng)長(zhǎng)的一段時(shí)間內(nèi)，AGI的商業(yè)前景其實(shí)都并不為業(yè)內(nèi)和大多玩家所看好。

除了前期訓(xùn)練算力和數(shù)據(jù)投入的大量資金，后期優(yōu)化和知識(shí)更新所需的迭代路線，無(wú)法像互聯(lián)網(wǎng)商業(yè)模式創(chuàng)新那樣快速變現(xiàn)增長(zhǎng)。

在國(guó)內(nèi)市場(chǎng)大環(huán)境中，并不是一個(gè)好的選擇。相比之下，國(guó)內(nèi)大多數(shù)科技廠商更傾向于在垂直專業(yè)領(lǐng)域應(yīng)用AI技術(shù)，如推出針對(duì)不同行業(yè)的專業(yè)大模型、又例如采用預(yù)訓(xùn)練+微調(diào)的模式，針對(duì)更具體的場(chǎng)景用專業(yè)數(shù)據(jù)去調(diào)整差異……

這并不意味著垂直專業(yè)領(lǐng)域的AI應(yīng)用一定比通用AI更差，甚至在某些領(lǐng)域上，經(jīng)過專業(yè)數(shù)據(jù)訓(xùn)練的AI表現(xiàn)仍然比ChatGPT更好。

然而ChatGPT的成功，意味著通用模型以后也會(huì)成為商業(yè)化落地的方向之一，甚至覆蓋原先一些AI技術(shù)不高、專業(yè)度不夠的場(chǎng)景落地應(yīng)用，如銀行客服等。

其二，中美在ChatGPT技術(shù)上的差距。

如前所述，中國(guó)不缺ChatGPT技術(shù)。如科大訊飛研究的認(rèn)知智能中，對(duì)于ChatGPT具備的自然語(yǔ)言理解、知識(shí)推理技術(shù)都已有所布局，相關(guān)全球基準(zhǔn)測(cè)試中，成績(jī)均達(dá)到了全球領(lǐng)先水平。

然而，如何將這些模型能力集成升級(jí)、達(dá)到ChatGPT的效果，又如何搜集并產(chǎn)生巨量的高質(zhì)量通用數(shù)據(jù)、而非僅僅是某一行業(yè)的專業(yè)數(shù)據(jù)，國(guó)內(nèi)外目前依舊存在差距。

更明確一點(diǎn)來(lái)說，存在技術(shù)代差。

360在最近電話會(huì)議中表示：

國(guó)內(nèi)的技術(shù)水平目前整體在GPT2.3左右。如果基于互聯(lián)網(wǎng)優(yōu)勢(shì)，大家都用中文提問、尤其是國(guó)內(nèi)的問題，可能實(shí)際體驗(yàn)?zāi)苓_(dá)到GPT2.5版本左右。

但OpenAI這邊，GPT-4早就已經(jīng)呼之欲出，中美之間基本已存在一代多的技術(shù)差距。

其三，技術(shù)引發(fā)的生態(tài)差距。

GPT-3之后OpenAI所有的模型都沒有開源，而是提供了API調(diào)用，并因此養(yǎng)活了美國(guó)一大幫創(chuàng)業(yè)公司，創(chuàng)造并盤活了整個(gè)生態(tài)。

清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系長(zhǎng)聘副教授黃民烈，就曾這樣形象地描述GPT系列模型的影響力：

這個(gè)過程它干了一件事，就是建立起了真實(shí)的用戶調(diào)用和模型迭代之間的飛輪，它非常重視真實(shí)世界數(shù)據(jù)的調(diào)用，以及這些數(shù)據(jù)對(duì)模型的迭代。

相比之下，國(guó)內(nèi)目前更多公司雖然開源了不少大模型，然而這些模型要想達(dá)到商業(yè)化落地效果，仍舊需要大量數(shù)據(jù)迭代乃至應(yīng)用落地，這方面的費(fèi)用絕非初創(chuàng)公司所能承擔(dān)。

事實(shí)上，從技術(shù)、行業(yè)乃至生態(tài)差距來(lái)看，ChatGPT依靠的不是短期的角逐，而是一個(gè)長(zhǎng)線投資行為。

目前，應(yīng)用領(lǐng)域可能還集中在搜索引擎上，但隨著ChatGPT應(yīng)用潛力被各個(gè)領(lǐng)域挖掘出來(lái)，最終可能打造國(guó)產(chǎn)ChatGPT的，還是那些在技術(shù)、行業(yè)以及有能力構(gòu)建生態(tài)的玩家中，科大訊飛是一個(gè)。

總之，關(guān)于全球ChatGPT之爭(zhēng)，號(hào)角已經(jīng)吹響。關(guān)乎ChatGPT落地價(jià)值探索，國(guó)內(nèi)玩家已經(jīng)起航。