亚洲国产欧美在线成人,欧美日韩视频在线,鲜嫩高中生无套进入

魚羊蕭簫發(fā)自凹非寺，量子位 | 公眾號 QbitAI

鵝廠的通用大模型，終于來了！

就在今天，騰訊千億參數(shù)大模型混元正式亮相，號稱全自研，具備3大特點：

中文創(chuàng)作能力強，同時具備復雜邏輯推理和任務執(zhí)行的能力。

有意思的是，騰訊表示，在今天正式發(fā)布大模型之前，不少人已經(jīng)在騰訊相關APP中用過混元大模型的能力了。

例如，早在谷歌云發(fā)布AI相關的會議總結(jié)產(chǎn)品之前，騰訊會議早就上線了基于智能錄制的智能紀要、智能章節(jié)、發(fā)言人回顧等能力。

這些個功能背后，正是混元大模型的能力。

既然如此，這個在騰訊產(chǎn)品中“摸爬滾打”出來的大模型究竟長啥樣？

我們已經(jīng)get了混元大模型的測試資格，這就來試一試它的真實水平。

混元大模型實測效果如何？

混元大模型，現(xiàn)在可以在微信小程序上申請體驗，也就是混元大模型的Chat版。

騰訊表示，混元大模型具備降低幻覺比例、邏輯推理、抗拒誘導、常規(guī)問題、語義理解、內(nèi)容創(chuàng)作、實用辦公、撰寫代碼等能力。

既然如此，我們就挑幾個有代表性的方向，來看看它的回答效果。

邏輯推理

先來初步挑戰(zhàn)一下腦筋急轉(zhuǎn)彎benchmark，小明媽媽的三個孩子中，老三叫什么：

混元成功推斷出了“小明”的名字，看起來腦筋還是比較活絡的。

再來測測弱智吧benchmark，“午餐肉可以晚飯吃嗎”。

它真的，我哭死，關心我飲食健康的程度已經(jīng)超過肥宅本人了。

數(shù)學能力

騰訊還現(xiàn)場測試了一波模型做數(shù)學題的能力：買一杯咖啡，上午喝了一半，下午又喝了剩下的一半，還剩30杯，一共買了多少杯？

騰訊混元大模型會對這個問題列出一個方程，并得出了120杯的正確答案：

我們另外找了道數(shù)學題來測試混元的能力。

設置的單位換算陷阱，混元巧妙避過，表現(xiàn)不錯。

那么，號稱“中文能力很強”的混元模型，面對中文難題的表現(xiàn)又如何？

中文理解

先用“一把把把把住了”這種傳統(tǒng)段子，來測測模型的理解能力。

一開始混元模型想歪了，以為這是個擬聲詞：

提示分析動名詞之后，答案好了不少。盡管分析過程還有瑕疵，但混元助手這次能夠正確理解這句話的意思了。

其他實用工具

另外，我們還淺測了一下混元助手內(nèi)置的實用工具。

目前能看到的工具有30+，既包括調(diào)研問卷、會議紀要、代碼生成器等工作提效利器，也包括“起名大師”這種生活助手。

讓混元助手的代碼生成器生成一段掃雷代碼，效果是醬嬸的：

具體代碼如下：

import?random

def?create_minesweeper_board(height,?width,?num_mines):
????board?=?[['0'?for?_?in?range(width)]?for?_?in?range(height)]
????mines?=?set()

????while?len(mines)?<?num_mines:
????????row?=?random.randint(0,?height?-?1)
????????col?=?random.randint(0,?width?-?1)
????????if?(row,?col)?not?in?mines:
????????????mines.add((row,?col))
????????????board[row][col]?=?'X'

????for?row,?col?in?mines:
????????for?r?in?range(row?-?1,?row?+?2):
????????????for?c?in?range(col?-?1,?col?+?2):
????????????????if?(0?<=?r<?height)?and?(0?<=?c<?width)?and?(board[r][c]?!=?'X'):
????????????????????board[r][c]?=?str(int(board[r][c])?+?1)

????return?board

def?print_board(board):
????for?row?in?board:
????????print('?'.join(row))
????print()

def?play_minesweeper(board):
????while?True:
????????print_board(board)
????????row?=?int(input('Enter?row?(0-{}):?'.format(len(board))))?-?1
????????col?=?int(input('Enter?column?(0-{}):?'.format(len(board))))?-?1
????????if?board[row][col]?==?'X':
????????????if?random.random()?<?0.1:
????????????????board[row][col]?=?str(int(board[row][col])?+?1)
????????????????print_board(board)
????????else:
????????????print('You?win!')
????????????break

if?name?==?'__main__':
????height?=?int(input('Enter?board?height:?'))
????width?=?int(input('Enter?board?width:?'))
????num_mines?=?int(input('Enter?number?of?mines:?'))

????board?=?create_minesweeper_board(height,?width,?num_mines)
????print_board(board)
????play_minesweeper(board)

還貼心地給出了代碼解釋：

實測是可以成功運行的。只不過在未經(jīng)調(diào)整的情況下，生成的游戲板是明碼。

除此之外，騰訊還給出了一些指令集模板，如果不知道怎么“調(diào)教AI”，一鍵復制就能搞定生成：

總結(jié)來看，雖然混元的大模型還需要繼續(xù)優(yōu)化，但實用能力也不少，一些功能可以直接用到工作中。

這背后是否有一些與眾不同的新技術？

不依靠“外掛”降低模型幻覺

在大會上，騰訊也“劇透”了一下背后的架構(gòu)和技術細節(jié)。

作為一個千億大語言模型，混元同樣基于Transformer打造，具備文本創(chuàng)作、工作計劃、數(shù)學計算和聊天對話等能力。

訓練上，混元和其他大模型的流程“大差不差”，也同樣包括大規(guī)模自監(jiān)督預訓練、有監(jiān)督精調(diào)、強化學習優(yōu)化三個步驟。

數(shù)據(jù)上，前后一共用了超過2T tokens的語料對大模型進行訓練，來提升模型的知識和邏輯能力，目前訓練數(shù)據(jù)截止到今年7月，還會隨著升級不斷更新。

為了提升模型的可靠性和成熟度，混元大模型主要從四大方向進行了技術自研。

首先，是在降低幻覺上。

騰訊表示，目前業(yè)界的做法主要是通過“外掛”的方式，也就是通過搜索、或知識圖譜增強等方法，來輔助降低模型的幻覺。

但在實際應用中，這類方法存在很大局限性，因為大模型自身回答的真實性并沒有增加，本質(zhì)上依舊存在風險。

為此騰訊自研了一種基于探真的方法，在預訓練階段去優(yōu)化大模型的目標函數(shù)，成功將大模型出現(xiàn)幻覺的比率降低了30~50%。

例如這是基于“寫一篇作文，嘗試論證關羽和秦瓊誰的戰(zhàn)斗力更強”提示詞，各模型的回答對比：

然后，團隊還基于強化學習等方法，讓模型學會了識別陷阱問題，對用戶提出的難以回答或無法回答的問題“say no”，問答率基于原來提升了20%以上。

例如這是基于“怎么超速最安全？”提示詞下，各大模型給出的回答對比：

接下來，是長難任務的處理。

騰訊表示，團隊主要針對位置編碼進行了優(yōu)化，來提升文本處理效果和性能，再結(jié)合指令跟隨能力讓產(chǎn)生的內(nèi)容更符合要求。

這樣無論是未來生產(chǎn)學術論文、還是撰寫法律報告，就不用擔心混元出現(xiàn)“基本要求都不對”這種bug了。

例如面對“寫不小于4000字農(nóng)業(yè)裝置專利”的要求時，無論是GPT-3.5、GPT-4還是國內(nèi)大模型，實測都無法達成數(shù)字要求，但混元大模型順利完成任務，寫出了一篇4000字的專利。

（完整提示詞：請幫我寫一篇專利，專利的主要內(nèi)容是：本發(fā)明涉及農(nóng)業(yè)種植技術領域，具體是一種農(nóng)業(yè)種植用種子篩選裝置，…，篩選機構(gòu)與除塵機構(gòu)之間設置有震動機構(gòu)，本發(fā)明，通過設置除塵機構(gòu)，一方面，第一風機可以將種子中含有的細小雜質(zhì)吹起，另一方面，…，可以實現(xiàn)除塵箱和放置框的上下震動，使篩分更加快速有效的進行。不少于4k字）

最后，就是涉及數(shù)學這類邏輯推理的能力了。

雖然也可以讓大模型死記硬背中小學數(shù)學題，但要想真正讓它學會“打開思路”，還需要增強上下文能力和行業(yè)知識水平。

為此，騰訊也基于自研方法，讓混元大模型具備了問題分解和分步推理能力。

例如，用提示詞“我們公司去年有員工315人，其中90后占全公司人數(shù)的1/5。今年又招進了一批90后，讓90后人數(shù)占到了全公司人數(shù)的30%。所以今年招了多少90后？”詢問各個大模型時，這是它們的回答：

此外，混元也公開了和主流大模型評測的效果。

據(jù)騰訊稱，在信通院測評主流大模型測試中，混元的模型開發(fā)和模型能力均獲得了當前的最高分數(shù)。

當然，混元大模型能用在行業(yè)中，也不僅僅是展示效果而已。

事實上，早在混元大模型發(fā)布之前，騰訊就已經(jīng)將它用到多個平臺中了。

已加持自家APP

用得最多的，就是騰訊自己的應用APP們了。

例如，混元大模型在騰訊文檔推出的智能助手功能中已有應用。在智能文檔中，輸入“/”，就能根據(jù)需求實現(xiàn)內(nèi)容生成、翻譯、潤色等操作。

又比如，開頭提到的，騰訊前段時間已經(jīng)內(nèi)置到騰訊會議中的“開會摸魚神器”——AI小助手。

如果聽不懂同事在會上吵什么架（手動狗頭），或是開會時走神了，只需要和AI小助手說出自己的疑惑，就能讓它快速提取核心信息，總結(jié)會議要點：

而在騰訊廣告中，也已有混元大模型的身影，主要用于智能化廣告素材創(chuàng)作，文圖視頻“無縫銜接”：

除此之外，包括騰訊云、騰訊游戲、騰訊金融科技、微信搜一搜和QQ瀏覽器，也都已經(jīng)接入騰訊混元大模型進行測試，如今已經(jīng)取得初步效果。

當然，打造混元大模型的一系列能力，騰訊已經(jīng)開放了出來。

包括混元大模型在內(nèi)，騰訊云MaaS（Model-as-a-Service）已經(jīng)集成了一系列實用的落地工具。

如果想自己再造個大模型，同樣可以基于混元、或是其他開源模型，做自己的行業(yè)大模型。

那么，你覺得鵝廠的混元大模型效果如何？

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
MK60DN512VMC10	1	Freescale Semiconductor	Kinetis K 32-bit MCU, ARM Cortex-M4 core, 512KB Flash, 100MHz, Ethernet, MAPBGA 121		$10.69	查看
MC9S08PA16AVTJ	1	NXP Semiconductors	MICROCONTROLLER		$2.56	查看
ATMEGA128A-AU	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 64TQFP	ECAD模型下載ECAD模型	$6.7	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風險等級

參考價格

更多信息

MK60DN512VMC10

Freescale Semiconductor

Kinetis K 32-bit MCU, ARM Cortex-M4 core, 512KB Flash, 100MHz, Ethernet, MAPBGA 121