加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • █?問題1:為什么要搞大模型?
    • █?問題2:大模型,到底該怎么搞?
    • █?問題3:大模型,要搞成什么樣?
    • █?問題4:混元大模型,到底怎么用?
    • █?結(jié)語
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

后發(fā)而先至的騰訊混元大模型,到底有哪些技術(shù)亮點(diǎn)?

2023/09/13
3409
閱讀需 14 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

2023年的夏天已經(jīng)結(jié)束了,但是,圍繞AIGC大模型的關(guān)注熱度,卻絲毫沒有衰退的意思。

在過去的大半年里,我們親眼見證了大模型浪潮的崛起,甚至可以說是瘋狂。截止7月,國內(nèi)的大模型數(shù)量,已經(jīng)超過130個(gè)。

這些大模型的創(chuàng)造者,既有國有及民營企業(yè),也有大學(xué)、科研院所等研究機(jī)構(gòu)。從某種意義上來說,發(fā)布大模型,已經(jīng)成為宣示自身實(shí)力的一種方式。

不知道大家有沒有注意到,國內(nèi)互聯(lián)網(wǎng)大廠百度和阿里,都早早推出了自家的大模型。而身為BAT“三巨頭”之一的騰訊,卻一直很低調(diào)。

幾天前,9月7日,在2023騰訊全球數(shù)字生態(tài)大會(huì)上,騰訊自家的通用大語言模型——騰訊混元大模型終于亮相了

為什么騰訊的大模型“不著急”?是他們不重視這場科技浪潮嗎?還是說,他們的AI技術(shù)不足,在競爭中落后于人?

很顯然,這些說法都不對(duì)。

ChatGPT是AIGC大模型浪潮的導(dǎo)火線,但是,它并不是大模型的最早開端。

業(yè)界對(duì)大模型的研究,其實(shí)早幾年就已經(jīng)開始了。當(dāng)時(shí),AIGC并沒有這么高的熱度。2022年底,ChatGPT橫空出世,展現(xiàn)出驚人的自然語言能力,才徹底激發(fā)了整個(gè)社會(huì)對(duì)大模型的關(guān)注。

正如前面所說,很多企業(yè)之所以不惜一切代價(jià)搞大模型,完全是為了追逐“風(fēng)口”。

騰訊集團(tuán)副總裁蔣杰在采訪中介紹:“在騰訊內(nèi)部,混元已經(jīng)內(nèi)測很久了,不是現(xiàn)在第一天才有?!彬v訊是國內(nèi)最早研究大模型的企業(yè)之一。2021年,騰訊推出了千億規(guī)模的NLP大模型。2022年,騰訊推出萬億參數(shù)的 NLP 稀疏大模型。換言之,他們的大模型研究,是國內(nèi)領(lǐng)先的。

ChatGPT火了之后,騰訊更加理性地思考了自己的大模型戰(zhàn)略,提出了四大靈魂拷問:

1、自己為什么要搞大模型?

2、自己的大模型,要怎么搞?

3、自己的大模型,要搞成什么樣?

4、搞出大模型之后,到底怎么用?

在經(jīng)過審慎思考和激烈討論之后,他們終于理清了自己的答案,按照自己的節(jié)奏,穩(wěn)步向前推進(jìn)。

騰訊混元大模型,就是在這樣的背景下誕生的。

接下來,我們不妨仔細(xì)看看,騰訊混元大模型,究竟是如何解答這四個(gè)靈魂之問的。

?問題1:為什么要搞大模型?

今年3月,騰訊總裁兼投資委員會(huì)主席劉熾平,在財(cái)報(bào)電話會(huì)議上曾經(jīng)表示:“AI將成為公司未來業(yè)務(wù)增長的放大器。生成式AI和基礎(chǔ)模型技術(shù)可以補(bǔ)充優(yōu)化騰訊的業(yè)務(wù)。…… (大模型)將在未來對(duì)每個(gè)業(yè)務(wù)線都起到正向補(bǔ)充作用。同時(shí),這也有助于推出新業(yè)務(wù)?!?/p>

他還表示,“我們希望沿著正確的路線踏實(shí)前進(jìn),不急于求成,先打好基礎(chǔ),再追求新進(jìn)展,我們的第一款產(chǎn)品將會(huì)是多次迭代之后的產(chǎn)品,整個(gè)過程將是長期的?!?/p>

他的表態(tài),其實(shí)已經(jīng)說明了騰訊對(duì)大模型的戰(zhàn)略基調(diào)——緊密結(jié)合自身業(yè)務(wù)線,穩(wěn)步推進(jìn),長期迭代。

在發(fā)布會(huì)上,騰訊集團(tuán)高級(jí)執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群 CEO 湯道生也提到:“大模型需要基于產(chǎn)業(yè)場景,與企業(yè)數(shù)據(jù)融合,才能釋放出最大的價(jià)值。”

也就是說,騰訊不會(huì)為了搞大模型而搞大模型。既然要搞,就是沖著實(shí)用性去的。

基于這個(gè)目標(biāo)搞出來的混元大模型,是“從實(shí)踐中來,到實(shí)踐中去”的實(shí)用級(jí)大模型。它關(guān)注的不是推出速度和評(píng)測跑分,而是如何真正與實(shí)際場景結(jié)合,滿足用戶的真實(shí)需求。

?問題2:大模型,到底該怎么搞?

大模型是一場技術(shù)博弈。既然決定要做,就必須做出差異化的競爭優(yōu)勢(shì),找準(zhǔn)技術(shù)路線。

騰訊混元大模型,最大的特點(diǎn),就是——全鏈路自研。

行業(yè)里現(xiàn)有的很多大模型,都是開源大模型。東西拿來就用,依葫蘆畫瓢,當(dāng)然推出速度會(huì)快。

蔣杰表示,騰訊是一個(gè)海量高并發(fā)的業(yè)務(wù),開源的架構(gòu)并不適應(yīng)騰訊,一定要走出一套基于自主體系的研發(fā)之路。唯有自研,才能完全掌握技術(shù)內(nèi)核,將大模型更好地融入到自身的技術(shù)棧中。所以,他們走上了更加具有挑戰(zhàn)性的自研之路。

騰訊混元大模型從第一個(gè)token開始從零訓(xùn)練,掌握了從模型算法到機(jī)器學(xué)習(xí)框架,再到AI基礎(chǔ)設(shè)施的全鏈路自研技術(shù)。

算法方面,騰訊在預(yù)訓(xùn)練上從零啟動(dòng)訓(xùn)練,優(yōu)化預(yù)訓(xùn)練算法及策略,精調(diào)及強(qiáng)化學(xué)習(xí),改進(jìn)注意力機(jī)制,并開發(fā)了思維鏈新算法。

機(jī)器學(xué)習(xí)框架方面,騰訊采用的是自主研發(fā)的機(jī)器學(xué)習(xí)框架Angel,訓(xùn)練速度相比業(yè)界主流框架提升1倍,推理速度比業(yè)界主流框架提升1.3倍。

基礎(chǔ)設(shè)施方面,采用基于云星星海自研服務(wù)器的新一代HCC高性能算力集群,搭載了超強(qiáng)算力GPU,性能提升了3倍。

算力集群所基于的網(wǎng)絡(luò)底座——,具備業(yè)界最高的3.2T通信帶寬,可以為AI大模型帶來10倍通信性能提升。通過自研TiTa協(xié)議和自研TCCL通信庫,星脈網(wǎng)絡(luò)可將網(wǎng)絡(luò)利用率從普通以太網(wǎng)的60%提升到90%以上,極大提高整體集群的算力利用率。

根據(jù)驗(yàn)證,騰訊新一代計(jì)算集群可以幫助混元NLP大模型訓(xùn)練在同等數(shù)據(jù)集下,將訓(xùn)練時(shí)間由50天縮短到4天。

?問題3:大模型,要搞成什么樣?

全鏈路自研,投入雖然大,但回報(bào)也是顯著的。

騰訊混元大模型,擁有超千億參數(shù)規(guī)模,預(yù)訓(xùn)練語料超2萬億tokens,具備強(qiáng)大的中文創(chuàng)作能力,復(fù)雜語境下的邏輯推理能力,以及可靠的任務(wù)執(zhí)行能力。

相比于業(yè)界已有的大模型,騰訊混元大模型在可靠性和成熟度方面,有巨大的提升。

首先,它可以降低大語言模型的幻覺比例。

使用過大模型的讀者都知道,大模型很容易出現(xiàn)“一本正經(jīng)胡說八道”的問題。也就是說,AI模型生成了不屬于現(xiàn)實(shí)世界的內(nèi)容。這就是“幻覺”?!盎糜X”是大語言模型每一個(gè)廠家都應(yīng)該面臨的重要問題,無論技術(shù)做到什么程度,在當(dāng)前的模型架構(gòu)下,都無法回避“幻覺”。

針對(duì)“幻覺”問題,當(dāng)前業(yè)界普遍的解決方式是采用外掛插件,即給大模型“外掛”一個(gè)知識(shí)庫,使其在推理時(shí)進(jìn)行檢索,基于檢索結(jié)果再進(jìn)行輸出,提高正確率。

這個(gè)方式,在遇到復(fù)雜任務(wù)時(shí),效果有限。

騰訊混元大模型所采取的方式,是在預(yù)訓(xùn)練階段,就通過“探真”算法,進(jìn)行事實(shí)修正。它擺脫了對(duì)外掛的依賴,有效降低了復(fù)雜任務(wù)中的幻覺。

根據(jù)測試,經(jīng)過預(yù)訓(xùn)練算法及策略的整體優(yōu)化后,混元大模型相比其他主流開源大模型,幻覺比例降低了30%-50%。

更多的理性,更少的“胡說八道”

其次,混元大模型的“陷阱”識(shí)別能力大幅提升,可以更好地抗拒“誘導(dǎo)”。

人們?cè)谑褂么竽P蜁r(shí),經(jīng)常會(huì)對(duì)它進(jìn)行“調(diào)戲”。也就是說,問一些刁鉆問題,給大模型設(shè)置“陷阱”,得到令人啼笑皆非的答案。

騰訊通過強(qiáng)化學(xué)習(xí)的方法,讓混元大模型學(xué)會(huì)識(shí)別“陷阱”,對(duì)“調(diào)戲”說不,提升應(yīng)用的安全性和智能感。根據(jù)數(shù)據(jù)顯示,面對(duì)安全誘導(dǎo)類問題,混元大模型的拒答率提升了20%。

拒絕“挖坑”

除了上面提到的可靠性改進(jìn)之外,混元也大幅提升了成熟性。

混元大模型覆蓋了短文本和千字級(jí)別長文本生成能力。

當(dāng)前市面上大模型在超長任務(wù)處理上很難實(shí)現(xiàn)。騰訊通過位置編碼優(yōu)化,提升長文的處理效果和性能,結(jié)合指令跟隨優(yōu)化,讓產(chǎn)出內(nèi)容更符合字?jǐn)?shù)要求,從而提升超長文本的生成和續(xù)寫能力。

在邏輯思考能力上,混元大模型持結(jié)合實(shí)際場景推理決策。

在大模型訓(xùn)練中,一些團(tuán)隊(duì)會(huì)讓大模型通過“死記硬背”的方式學(xué)會(huì)中小學(xué)的數(shù)學(xué)題。但是在現(xiàn)實(shí)生活中,靠“背題”是不夠的,還需要讓大模型具備理解上下文的能力。騰訊推出思維鏈新策略,有效強(qiáng)化模型對(duì)問題拆解和分步思考的傾向。

以上這些特性,使得混元大模型在使用體驗(yàn)上和傳統(tǒng)大模型有明顯區(qū)別。它的智能化程度更好,表現(xiàn)更加穩(wěn)定,更像是一個(gè)真正的專家和助手。

在中國信通院《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用的評(píng)估方法》的標(biāo)準(zhǔn)符合性測試中,混元大模型共測評(píng)了66個(gè)能力項(xiàng)。在“模型開發(fā)(共測試29個(gè)能力項(xiàng))”和“模型能力(共測試37個(gè)能力項(xiàng))”這兩個(gè)重要領(lǐng)域的綜合評(píng)價(jià)中,均獲得了當(dāng)前的最高分。

?問題4:混元大模型,到底怎么用?

前面我提到,混元大模型是“從實(shí)踐中來,到實(shí)踐中去”的實(shí)用級(jí)大模型。為了充分發(fā)揮混元的實(shí)用價(jià)值,騰訊率先將自己的眾多互聯(lián)網(wǎng)業(yè)務(wù)與混元進(jìn)行結(jié)合、落地。

目前,騰訊云、騰訊廣告、騰訊游戲、騰訊金融科技、騰訊會(huì)議、騰訊文檔、微信搜一搜、QQ瀏覽器等50多個(gè)騰訊內(nèi)部業(yè)務(wù)和產(chǎn)品,已經(jīng)接入騰訊混元大模型測試并取得初步效果。

騰訊機(jī)器學(xué)習(xí)平臺(tái)部副總經(jīng)理王迪提到,騰訊混元大模型和各個(gè)產(chǎn)品的結(jié)合,并不是一種強(qiáng)制綁定的關(guān)系,而是更關(guān)注產(chǎn)品在用戶體驗(yàn)上的優(yōu)化,關(guān)注哪些地方可以通過AI提效。

例如,基于混元的騰訊會(huì)議AI小助手,可以快速實(shí)現(xiàn)會(huì)中問答、會(huì)議摘要、會(huì)議待辦項(xiàng)等多種事項(xiàng)。

再例如,基于混元的騰訊文檔智能助手功能(內(nèi)測中),不僅支持?jǐn)?shù)十種文本創(chuàng)作場景,還能生成上百種專業(yè)文書規(guī)范,以及用自然語言生成數(shù)百種Excel公式等。

王迪表示,在將大模型的能力和業(yè)務(wù)場景結(jié)合的過程中,需要做大量的工作,比如怎么把混元大模型的基礎(chǔ)指令理解能力、文字總結(jié)能力與會(huì)議APP里AI的能力和會(huì)議內(nèi)容生成能力結(jié)合。如果只是單純將大模型直接放進(jìn)去,短期不一定真的能夠?qū)I(yè)務(wù)帶來很大的提升。一定是針對(duì)業(yè)務(wù)場景進(jìn)行專門的優(yōu)化和提效,才能達(dá)到更好的效果。

在混元大模型的研究過程中,其實(shí)就已經(jīng)從騰訊豐富的應(yīng)用場景中進(jìn)行了技術(shù)積累。場景鍛煉了模型,模型反過來服務(wù)場景,形成了良性循環(huán)。

蔣杰表示,騰訊混元大模型團(tuán)隊(duì)關(guān)注的首先是做好技術(shù)本身,回歸本質(zhì),做好技術(shù)的突破和路徑規(guī)劃。在內(nèi)部,會(huì)把混元所有的能力開放給騰訊所有的業(yè)務(wù)。

內(nèi)部業(yè)務(wù)場景的實(shí)踐,是為外部服務(wù)開放做準(zhǔn)備。在發(fā)布會(huì)上,蔣杰鄭重宣布:騰訊混元大模型已正式通過騰訊云對(duì)外開放,助力全行業(yè)。

混元大模型將作為騰訊云MaaS服務(wù)的底座,用戶不僅可以直接通過API調(diào)用混元,也可以將混元作為基底模型,為不同產(chǎn)業(yè)場景構(gòu)建專屬應(yīng)用。

?結(jié)語

騰訊對(duì)四大靈魂之問的探索,最終為混元大模型的問世奠定了基礎(chǔ)。

正所謂“方向?qū)α耍Σ庞幸饬x”。騰訊在喧囂躁動(dòng)中堅(jiān)持理性思考,在找準(zhǔn)目標(biāo)后,果斷投入,進(jìn)行艱苦自研。最終,他們拿出了能經(jīng)受考驗(yàn)的產(chǎn)品,也走出了自己的獨(dú)特道路。

他們的做法無疑是正確的,也帶給整個(gè)行業(yè)以啟示。在百模大戰(zhàn)逐漸升級(jí)的今天,很多公司都將面對(duì)自己的靈魂拷問。

大浪淘沙沙去盡,沙盡之時(shí)見真金。唯有那些給出正確答案的大模型,才能笑到最后,成為真正的贏家。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
STM32H750VBT6 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 128 Kbytes of Flash memory, 1MB RAM, 480 MHz CPU, L1 cache, external memory interface, JPEG codec, HW crypto, large set of peripherals

ECAD模型

下載ECAD模型
$27.62 查看
STM32F030C8T6TR 1 STMicroelectronics Mainstream Arm Cortex-M0 Value line MCU with 64 Kbytes of Flash memory, 48 MHz CPU

ECAD模型

下載ECAD模型
$3.41 查看
STM32F205RCT6 1 STMicroelectronics High-performance Arm Cortex-M3 MCU with 256 Kbytes of Flash memory, 120 MHz CPU, ART Accelerator

ECAD模型

下載ECAD模型
$27.28 查看
騰訊

騰訊

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級(jí)。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級(jí)。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

通信行業(yè)知名新媒體鮮棗課堂創(chuàng)始人,通信行業(yè)資深專家、行業(yè)分析師、自媒體作者,《智聯(lián)天下:移動(dòng)通信改變中國》叢書作者。通信行業(yè)13年工作經(jīng)驗(yàn),曾長期任職于中興通訊股份有限公司,從事2/3/4G及5G相關(guān)技術(shù)領(lǐng)域方面的研究,曾擔(dān)任中興通訊核心網(wǎng)產(chǎn)品線產(chǎn)品經(jīng)理、能力提升總監(jiān)、中興通訊學(xué)院二級(jí)講師、中興通訊高級(jí)主任工程師,擁有豐富的行業(yè)經(jīng)驗(yàn)和積累。