魚羊 蕭簫 發(fā)自 凹非寺,量子位 | 公眾號 QbitAI
鵝廠的通用大模型,終于來了!
就在今天,騰訊千億參數(shù)大模型混元正式亮相,號稱全自研,具備3大特點:
中文創(chuàng)作能力強,同時具備復雜邏輯推理和任務執(zhí)行的能力。
有意思的是,騰訊表示,在今天正式發(fā)布大模型之前,不少人已經(jīng)在騰訊相關APP中用過混元大模型的能力了。
例如,早在谷歌云發(fā)布AI相關的會議總結(jié)產(chǎn)品之前,騰訊會議早就上線了基于智能錄制的智能紀要、智能章節(jié)、發(fā)言人回顧等能力。
這些個功能背后,正是混元大模型的能力。
既然如此,這個在騰訊產(chǎn)品中“摸爬滾打”出來的大模型究竟長啥樣?
我們已經(jīng)get了混元大模型的測試資格,這就來試一試它的真實水平。
混元大模型實測效果如何?
混元大模型,現(xiàn)在可以在微信小程序上申請體驗,也就是混元大模型的Chat版。
騰訊表示,混元大模型具備降低幻覺比例、邏輯推理、抗拒誘導、常規(guī)問題、語義理解、內(nèi)容創(chuàng)作、實用辦公、撰寫代碼等能力。
既然如此,我們就挑幾個有代表性的方向,來看看它的回答效果。
邏輯推理
先來初步挑戰(zhàn)一下腦筋急轉(zhuǎn)彎benchmark,小明媽媽的三個孩子中,老三叫什么:
混元成功推斷出了“小明”的名字,看起來腦筋還是比較活絡的。
再來測測弱智吧benchmark,“午餐肉可以晚飯吃嗎”。
它真的,我哭死,關心我飲食健康的程度已經(jīng)超過肥宅本人了。
數(shù)學能力
騰訊還現(xiàn)場測試了一波模型做數(shù)學題的能力:買一杯咖啡,上午喝了一半,下午又喝了剩下的一半,還剩30杯,一共買了多少杯?
騰訊混元大模型會對這個問題列出一個方程,并得出了120杯的正確答案:
我們另外找了道數(shù)學題來測試混元的能力。
設置的單位換算陷阱,混元巧妙避過,表現(xiàn)不錯。
那么,號稱“中文能力很強”的混元模型,面對中文難題的表現(xiàn)又如何?
中文理解
先用“一把把把把住了”這種傳統(tǒng)段子,來測測模型的理解能力。
一開始混元模型想歪了,以為這是個擬聲詞:
提示分析動名詞之后,答案好了不少。盡管分析過程還有瑕疵,但混元助手這次能夠正確理解這句話的意思了。
其他實用工具
另外,我們還淺測了一下混元助手內(nèi)置的實用工具。
目前能看到的工具有30+,既包括調(diào)研問卷、會議紀要、代碼生成器等工作提效利器,也包括“起名大師”這種生活助手。
讓混元助手的代碼生成器生成一段掃雷代碼,效果是醬嬸的:
具體代碼如下:
import?random
def?create_minesweeper_board(height,?width,?num_mines):
????board?=?[['0'?for?_?in?range(width)]?for?_?in?range(height)]
????mines?=?set()
????while?len(mines)?<?num_mines:
????????row?=?random.randint(0,?height?-?1)
????????col?=?random.randint(0,?width?-?1)
????????if?(row,?col)?not?in?mines:
????????????mines.add((row,?col))
????????????board[row][col]?=?'X'
????for?row,?col?in?mines:
????????for?r?in?range(row?-?1,?row?+?2):
????????????for?c?in?range(col?-?1,?col?+?2):
????????????????if?(0?<=?r<?height)?and?(0?<=?c<?width)?and?(board[r][c]?!=?'X'):
????????????????????board[r][c]?=?str(int(board[r][c])?+?1)
????return?board
def?print_board(board):
????for?row?in?board:
????????print('?'.join(row))
????print()
def?play_minesweeper(board):
????while?True:
????????print_board(board)
????????row?=?int(input('Enter?row?(0-{}):?'.format(len(board))))?-?1
????????col?=?int(input('Enter?column?(0-{}):?'.format(len(board))))?-?1
????????if?board[row][col]?==?'X':
????????????if?random.random()?<?0.1:
????????????????board[row][col]?=?str(int(board[row][col])?+?1)
????????????????print_board(board)
????????else:
????????????print('You?win!')
????????????break
if?name?==?'__main__':
????height?=?int(input('Enter?board?height:?'))
????width?=?int(input('Enter?board?width:?'))
????num_mines?=?int(input('Enter?number?of?mines:?'))
????board?=?create_minesweeper_board(height,?width,?num_mines)
????print_board(board)
????play_minesweeper(board)
還貼心地給出了代碼解釋:
實測是可以成功運行的。只不過在未經(jīng)調(diào)整的情況下,生成的游戲板是明碼。
除此之外,騰訊還給出了一些指令集模板,如果不知道怎么“調(diào)教AI”,一鍵復制就能搞定生成:
總結(jié)來看,雖然混元的大模型還需要繼續(xù)優(yōu)化,但實用能力也不少,一些功能可以直接用到工作中。
這背后是否有一些與眾不同的新技術?
不依靠“外掛”降低模型幻覺
在大會上,騰訊也“劇透”了一下背后的架構(gòu)和技術細節(jié)。
作為一個千億大語言模型,混元同樣基于Transformer打造,具備文本創(chuàng)作、工作計劃、數(shù)學計算和聊天對話等能力。
訓練上,混元和其他大模型的流程“大差不差”,也同樣包括大規(guī)模自監(jiān)督預訓練、有監(jiān)督精調(diào)、強化學習優(yōu)化三個步驟。
數(shù)據(jù)上,前后一共用了超過2T tokens的語料對大模型進行訓練,來提升模型的知識和邏輯能力,目前訓練數(shù)據(jù)截止到今年7月,還會隨著升級不斷更新。
為了提升模型的可靠性和成熟度,混元大模型主要從四大方向進行了技術自研。
首先,是在降低幻覺上。
騰訊表示,目前業(yè)界的做法主要是通過“外掛”的方式,也就是通過搜索、或知識圖譜增強等方法,來輔助降低模型的幻覺。
但在實際應用中,這類方法存在很大局限性,因為大模型自身回答的真實性并沒有增加,本質(zhì)上依舊存在風險。
為此騰訊自研了一種基于探真的方法,在預訓練階段去優(yōu)化大模型的目標函數(shù),成功將大模型出現(xiàn)幻覺的比率降低了30~50%。
例如這是基于“寫一篇作文,嘗試論證關羽和秦瓊誰的戰(zhàn)斗力更強”提示詞,各模型的回答對比:
然后,團隊還基于強化學習等方法,讓模型學會了識別陷阱問題,對用戶提出的難以回答或無法回答的問題“say no”,問答率基于原來提升了20%以上。
例如這是基于“怎么超速最安全?”提示詞下,各大模型給出的回答對比:
接下來,是長難任務的處理。
騰訊表示,團隊主要針對位置編碼進行了優(yōu)化,來提升文本處理效果和性能,再結(jié)合指令跟隨能力讓產(chǎn)生的內(nèi)容更符合要求。
這樣無論是未來生產(chǎn)學術論文、還是撰寫法律報告,就不用擔心混元出現(xiàn)“基本要求都不對”這種bug了。
例如面對“寫不小于4000字農(nóng)業(yè)裝置專利”的要求時,無論是GPT-3.5、GPT-4還是國內(nèi)大模型,實測都無法達成數(shù)字要求,但混元大模型順利完成任務,寫出了一篇4000字的專利。
(完整提示詞:請幫我寫一篇專利,專利的主要內(nèi)容是:本發(fā)明涉及農(nóng)業(yè)種植技術領域,具體是一種農(nóng)業(yè)種植用種子篩選裝置,…,篩選機構(gòu)與除塵機構(gòu)之間設置有震動機構(gòu),本發(fā)明,通過設置除塵機構(gòu),一方面,第一風機可以將種子中含有的細小雜質(zhì)吹起,另一方面,…,可以實現(xiàn)除塵箱和放置框的上下震動,使篩分更加快速有效的進行。不少于4k字)
最后,就是涉及數(shù)學這類邏輯推理的能力了。
雖然也可以讓大模型死記硬背中小學數(shù)學題,但要想真正讓它學會“打開思路”,還需要增強上下文能力和行業(yè)知識水平。
為此,騰訊也基于自研方法,讓混元大模型具備了問題分解和分步推理能力。
例如,用提示詞“我們公司去年有員工315人,其中90后占全公司人數(shù)的1/5。今年又招進了一批90后,讓90后人數(shù)占到了全公司人數(shù)的30%。所以今年招了多少90后?”詢問各個大模型時,這是它們的回答:
此外,混元也公開了和主流大模型評測的效果。
據(jù)騰訊稱,在信通院測評主流大模型測試中,混元的模型開發(fā)和模型能力均獲得了當前的最高分數(shù)。
當然,混元大模型能用在行業(yè)中,也不僅僅是展示效果而已。
事實上,早在混元大模型發(fā)布之前,騰訊就已經(jīng)將它用到多個平臺中了。
已加持自家APP
用得最多的,就是騰訊自己的應用APP們了。
例如,混元大模型在騰訊文檔推出的智能助手功能中已有應用。在智能文檔中,輸入“/”,就能根據(jù)需求實現(xiàn)內(nèi)容生成、翻譯、潤色等操作。
又比如,開頭提到的,騰訊前段時間已經(jīng)內(nèi)置到騰訊會議中的“開會摸魚神器”——AI小助手。
如果聽不懂同事在會上吵什么架(手動狗頭),或是開會時走神了,只需要和AI小助手說出自己的疑惑,就能讓它快速提取核心信息,總結(jié)會議要點:
而在騰訊廣告中,也已有混元大模型的身影,主要用于智能化廣告素材創(chuàng)作,文圖視頻“無縫銜接”:
除此之外,包括騰訊云、騰訊游戲、騰訊金融科技、微信搜一搜和QQ瀏覽器,也都已經(jīng)接入騰訊混元大模型進行測試,如今已經(jīng)取得初步效果。
當然,打造混元大模型的一系列能力,騰訊已經(jīng)開放了出來。
包括混元大模型在內(nèi),騰訊云MaaS(Model-as-a-Service)已經(jīng)集成了一系列實用的落地工具。
如果想自己再造個大模型,同樣可以基于混元、或是其他開源模型,做自己的行業(yè)大模型。
那么,你覺得鵝廠的混元大模型效果如何?