加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶(hù)
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 解釋、模擬、評(píng)分三步“看透”GPT-2的思考過(guò)程
    • 開(kāi)源數(shù)據(jù)集,業(yè)界加速AI可解釋性研究
    • 用GPT-4解釋GPT-2仍有四大局限
    • 結(jié)語(yǔ):讓大模型的黑盒變透明
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

重磅!OpenAI打開(kāi)大模型思考黑盒,用AI解釋AI的時(shí)代來(lái)了

2023/05/11
854
閱讀需 10 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

OpenAI硬核研究:用GPT-4打開(kāi)GPT-2“大腦”。

OpenAI官方博客發(fā)布新的研究進(jìn)展,研究人員正在使用GPT-4來(lái)自動(dòng)解釋GPT-2的行為。

當(dāng)下大型語(yǔ)言模型正在扎堆發(fā)布,但對(duì)于它背后的思考過(guò)程我們知之甚少。而今天,OpenAI正在打開(kāi)大型語(yǔ)言模型的思考“黑盒”,讓AI被自己解釋?zhuān)?/p>

這一技術(shù)的具體實(shí)現(xiàn)方式是,研究人員先給定GPT-2一個(gè)主題,并讓其生成文本序列,再用GPT-4解釋GPT-2生成的內(nèi)容,再通過(guò)GPT-4模擬GPT-2的下一步操作,最后將GPT-4模擬生成的和GPT-2實(shí)際生成的內(nèi)容進(jìn)行對(duì)比評(píng)分。

目前,OpenAI已經(jīng)通過(guò)GPT-4對(duì)GPT-2中307200個(gè)神經(jīng)元進(jìn)行了書(shū)面解釋?zhuān)瑥慕Y(jié)果來(lái)看,絕大多數(shù)的解釋評(píng)分并不高,超過(guò)1000個(gè)神經(jīng)元的解釋得分高于0.8,不過(guò)研發(fā)人員稱(chēng),這一結(jié)果意味著基于GPT-4,他們已經(jīng)解釋了神經(jīng)元的大部分激活行為。

雖然目前從結(jié)果來(lái)看,OpenAI通過(guò)GPT-4解釋GPT-2的效果并不完美,但這一階段性的成果給AI可解釋性研究提供了思路,這一方法會(huì)隨著AI的發(fā)展而不斷精進(jìn)。

此外,OpenAI正在開(kāi)源其307200個(gè)神經(jīng)元的書(shū)面解釋的數(shù)據(jù)集和可視化工具,以及使用OpenAI API上公開(kāi)可用的模型進(jìn)行解釋和評(píng)分的代碼。

解釋、模擬、評(píng)分三步“看透”GPT-2的思考過(guò)程

OpenAI解釋神經(jīng)元的過(guò)程使用了三種算法,分別是能顯示神經(jīng)元對(duì)文本摘錄響應(yīng)的解釋器模型Explain、使用模擬器模型Simulate根據(jù)生成文本解釋模擬神經(jīng)元激活、Score算法對(duì)模擬激活內(nèi)容與真實(shí)激活內(nèi)容的匹配程度進(jìn)行評(píng)分。

在測(cè)試過(guò)程中,研究人員使用GPT-2預(yù)訓(xùn)練模型作為被解釋的模型,使用GPT-4作為解釋器和模擬器模型。

研究人員選擇不同的文檔來(lái)生成解釋和模擬,這一方法包括在每個(gè)神經(jīng)元上運(yùn)行下面3個(gè)步驟:

首先,先給定GPT-2一個(gè)主題去生成文本,然后使用GPT-4來(lái)生成對(duì)GPT-2生成文本序列的行為解釋。

如,當(dāng)GPT-2生成“漫威漫畫(huà)(Marvel comics vibes)”相關(guān)內(nèi)容時(shí),GPT-4生成的解釋是其文本中有“對(duì)電影、角色和娛樂(lè)的引用”。給定主題是“明喻(similes)”時(shí),GPT-4生成的解釋是“比較和類(lèi)比,常用‘like(類(lèi)似)’這個(gè)詞”。

▲測(cè)試案例:上圖主題是“漫威漫畫(huà)(Marvel comics vibes)”、下圖主題是“明喻(similes)

第二步,使用GPT-4模擬神經(jīng)元的行為。這一步驟想要回答的問(wèn)題是,假設(shè)GPT-4的解釋準(zhǔn)確而全面地解釋了神經(jīng)元的行為,那么該神經(jīng)元將如何針對(duì)特定序列中的每個(gè)標(biāo)記激活。

剛開(kāi)始,研究人員使用了“一次一個(gè)(one at a time)”方法,提供給GPT-4的提示由一些小樣本和預(yù)測(cè)單個(gè)神經(jīng)元激活的單樣本示例組成,但這種方法速度較慢。隨后,研究人員使用少量示例并行化了所有標(biāo)記的概率預(yù)測(cè),使得激活值變?yōu)槲谋拘蛄兄须S機(jī)位置的實(shí)際值,他們將這種方法稱(chēng)為“一次全部(all at once)”。

經(jīng)驗(yàn)證,這種研究方法在預(yù)測(cè)人類(lèi)偏好方面,與速度較慢的“一次一個(gè)”方法效果類(lèi)似。

第三步,將GPT-4模擬的內(nèi)容與GPT-2真實(shí)生成的內(nèi)容進(jìn)行對(duì)比,根據(jù)其匹配程度進(jìn)行評(píng)分。

研究人員采用的主要評(píng)分方法是相關(guān)性評(píng)分,如果模擬神經(jīng)元的行為與真實(shí)神經(jīng)元相同,則得分為1。如果模擬神經(jīng)元的行為是隨機(jī)的,當(dāng)解釋與神經(jīng)元行為無(wú)關(guān)得分將趨向于0。
不過(guò),基于模擬的評(píng)分實(shí)際上并不能反映人類(lèi)對(duì)解釋的準(zhǔn)確評(píng)估。因此他們收集了人類(lèi)對(duì)GPT-4生成解釋質(zhì)量的評(píng)估,并與模擬生成的評(píng)分結(jié)果相比較。
結(jié)果表明,人類(lèi)往往更喜歡得分較高的解釋而不是得分較低的解釋?zhuān)S著得分差距的擴(kuò)大,這種現(xiàn)象的發(fā)展趨勢(shì)也會(huì)更加明顯。

開(kāi)源數(shù)據(jù)集,業(yè)界加速AI可解釋性研究

從整體評(píng)分結(jié)果來(lái)看,OpenAI測(cè)驗(yàn)生成的絕大部分解釋得分都較低。不過(guò)同時(shí),研究人員也發(fā)現(xiàn)了一些GPT-4不理解的有趣神經(jīng)元。
如“dollars”的意思,第一層理解為“與貨幣和金錢(qián)有關(guān)的詞”;第二層為“‘buck(美元)’一詞或包含‘buck(美元)’的實(shí)例”;第29層為“提及‘美國(guó)’及相關(guān)術(shù)語(yǔ)”。

因此,研究人員希望隨著解釋的改進(jìn),能夠快速理解這些大型語(yǔ)言模型生成的有趣內(nèi)容。研發(fā)人員認(rèn)為,他們可以使用機(jī)器學(xué)習(xí)技術(shù)來(lái)進(jìn)一步提高GPT-4解釋的能力。

以下幾種方法可以幫助提高評(píng)分結(jié)果:

1、迭代解釋?zhuān)↖terating on explanations)。研發(fā)人員通過(guò)要求GPT-4提出可能的相反案例,然后根據(jù)它們的激活結(jié)果修改解釋來(lái)提高分?jǐn)?shù)。

2、使用更大的語(yǔ)言模型來(lái)給出解釋?zhuān)║sing larger models to give explanations)。隨著解釋器模型能力的提高,平均分?jǐn)?shù)也會(huì)上升。然而,即使是GPT-4這樣參數(shù)規(guī)模的大型語(yǔ)言模型也給出了比人類(lèi)更差的解釋?zhuān)@表明還有改進(jìn)的余地。

3、更改已解釋模型的架構(gòu)(Changing the architecture of the explained model)。具有不同激活函數(shù)的訓(xùn)練模型提高了解釋分?jǐn)?shù)。

因此基于上述考慮,OpenAI開(kāi)源了數(shù)據(jù)集,他們希望研究界能夠開(kāi)發(fā)新技術(shù)來(lái)生成更高分的解釋?zhuān)㈤_(kāi)發(fā)更好的工具來(lái)解釋GPT-2。

用GPT-4解釋GPT-2仍有四大局限

目前,OpenAI用于解釋GPT-2的方法還有很多局限性:

研究人員希望GPT-4生成的解釋是簡(jiǎn)短的自然語(yǔ)言,但神經(jīng)元可能具有非常復(fù)雜的行為,無(wú)法被簡(jiǎn)潔清晰的敘述出來(lái)。例如,神經(jīng)元可以代表許多不同的概念,或者可以代表人類(lèi)不理解或無(wú)法用語(yǔ)言表達(dá)的單一概念。

他們希望最終自動(dòng)找到并解釋實(shí)現(xiàn)復(fù)雜行為的整個(gè)神經(jīng)回路,使得神經(jīng)元和注意力中樞協(xié)同工作。OpenAI當(dāng)前的方法僅將神經(jīng)元行為解釋為原始文本輸入的函數(shù),而沒(méi)有說(shuō)明其接下來(lái)產(chǎn)生的影響。例如,當(dāng)神經(jīng)元激活的位置是一個(gè)句號(hào),這可以指向后面的英文單詞應(yīng)該大寫(xiě)開(kāi)頭等。

這一評(píng)分系統(tǒng)解釋了神經(jīng)元的行為,但沒(méi)有試圖解釋產(chǎn)生這種行為的機(jī)制。由于這一方法更多描述的是測(cè)試文本上的相關(guān)性,因此模擬過(guò)程中獲得高分的解釋?zhuān)瑢?duì)于測(cè)試外的文本解釋效果可能也很差。

最后,用GPT-4來(lái)解釋GPT-2的整個(gè)過(guò)程是計(jì)算密集型。

不過(guò),OpenAI的研究人員仍對(duì)這一方法的推廣感到興奮。最終,他們希望使用大型語(yǔ)言模型來(lái)生成、測(cè)試和迭代完全通用的預(yù)測(cè)。

結(jié)語(yǔ):讓大模型的黑盒變透明

大型語(yǔ)言模型在內(nèi)容生成、理解上的強(qiáng)大能力我們已經(jīng)有目共睹,但其內(nèi)部的工作原理我們知之甚少,也很難從大型語(yǔ)言模型的最后輸出結(jié)果中檢測(cè)到它們的“思考過(guò)程”是有偏見(jiàn)的或者是錯(cuò)誤的。

盡管從結(jié)果看,OpenAI的研究方法還有很大的進(jìn)步空間,但這一技術(shù)路線也為AI的可解釋性研究提供了思路。

作者 | 程茜

編輯 | 云鵬

相關(guān)推薦

電子產(chǎn)業(yè)圖譜