在NeurIPS這一關(guān)注機器學(xué)習(xí)、計算機視覺等領(lǐng)域的業(yè)界知名會議上,NVIDIA Research帶來了60多個項目,并展示了開創(chuàng)性成果
兩篇NVIDIA Research的論文憑借對AI和機器學(xué)習(xí)領(lǐng)域的貢獻而榮獲2022年NeurIPS獎。其中一篇研究的是基于擴散的生成式AI模型,另一篇則是關(guān)于如何訓(xùn)練通用智能體。
本周在新奧爾良舉行的NeurIPS大會和下周的NeurIPS在線會議中,60多場講座、學(xué)術(shù)海報會和研討會均有NVIDIA的論文作者參加。
針對圖像、文本或視頻等模態(tài)的合成數(shù)據(jù)生成(SDG)是貫穿NVIDIA論文的一大關(guān)鍵主題。其他主題還包括強化學(xué)習(xí)、數(shù)據(jù)采集和增強、氣候模型以及聯(lián)邦學(xué)習(xí)。
NVIDIA學(xué)習(xí)和感知研究副總裁Jan Kautz表示:“AI是一項極其重要的技術(shù)。從生成式AI到自主智能體,NVIDIA在各個領(lǐng)域都取得了飛快的進展。在生成式AI領(lǐng)域,我們不僅在推動自身對基礎(chǔ)模型理論的理解,而且還在為更輕松地創(chuàng)建逼真的虛擬世界和模擬做出實際的貢獻?!?/p>
重構(gòu)基于擴散的生成式模型的設(shè)計
基于擴散的模型已成為生成式AI領(lǐng)域的一項開創(chuàng)性技術(shù)。NVIDIA研究人員憑借對擴散模型設(shè)計的分析獲得了優(yōu)秀主流論文獎(Outstanding Main Track Paper)。他們所提出的改進措施能夠顯著提高這些模型的效率和質(zhì)量。
該論文將擴散模型的各個組成部分分解成模塊,幫助開發(fā)者明確可以調(diào)整的流程,進而提高整個模型的性能。研究人員表示,經(jīng)過他們修改的模型在AI生成圖像質(zhì)量評估中獲得了創(chuàng)紀錄的高分。
在基于《我的世界》游戲的模擬套件中訓(xùn)練通用智能體
雖然研究人員長期以來一直在《星際爭霸》、《Dota》、《圍棋》等視頻游戲環(huán)境中訓(xùn)練自主智能體,但這些智能體一般只擅長少數(shù)任務(wù)。因此,NVIDIA研究人員開始轉(zhuǎn)向全球最熱門的游戲《我的世界》,開發(fā)了一個用于訓(xùn)練通用智能體(一種能夠成功執(zhí)行各種開放式任務(wù)的智能體)的可擴展訓(xùn)練框架。
這個名為MineDojo的框架使智能體能夠利用一個由7000多個維基百科網(wǎng)頁、數(shù)百萬個Reddit帖子和30萬小時游戲錄像所組成的大規(guī)模在線數(shù)據(jù)庫來學(xué)習(xí)《我的世界》的靈活玩法(如下圖所示)。該項目獲得了NeurIPS委員會頒發(fā)的優(yōu)秀數(shù)據(jù)集和基準論文獎。
作為概念驗證,MineDojo的研究人員創(chuàng)建了一個名為MineCLIP的大型基礎(chǔ)模型。該模型學(xué)會了將YouTube上的《我的世界》游戲視頻與視頻字幕(包含玩家敘述屏幕上的動作)相關(guān)聯(lián)。通過MineCLIP,該團隊訓(xùn)練出了一個能夠在沒有人類干預(yù)的情況下執(zhí)行《我的世界》中若干任務(wù)的強化學(xué)習(xí)智能體。
創(chuàng)建構(gòu)建虛擬世界的復(fù)雜 3D 幾何體
本屆NeurIPS上還展示了GET3D。這個生成式AI模型可根據(jù)其所訓(xùn)練的建筑物、汽車、動物等2D圖像類別,即時合成3D幾何體。AI生成的物體具有高保真的紋理和復(fù)雜的幾何細節(jié),并且以常用圖形軟件應(yīng)用中所使用的三角網(wǎng)格格式創(chuàng)建,這使得用戶可以十分輕松地將這些幾何體導(dǎo)入3D渲染器和游戲引擎,以進行后續(xù)編輯。
GET3D即Generate?Explicit?Textured?3D?的縮寫,正如其名,它具備生成具有顯示紋理的3D?網(wǎng)格的能力。該模型是在NVIDIA A100 Tensor Core GPU上使用從不同相機角度拍攝的約100萬張3D幾何體的2D圖像訓(xùn)練而成。該模型在單顆NVIDIA GPU上運行推理時,每秒可生成約20個物體。
AI生成的物體可用于構(gòu)建為游戲、機器人、建筑、社交媒體等行業(yè)設(shè)計的數(shù)字空間,比如建筑物、戶外空間或整座城市的3D表達。
通過對材質(zhì)和光照的控制,改進可逆渲染流程
在6月于新奧爾良舉行的最近一次CVPR會議上,NVIDIA Research發(fā)布了3D MoMa。這種可逆渲染方法使開發(fā)者能夠創(chuàng)建由3D網(wǎng)格模型、覆蓋在模型上的材質(zhì)以及光照這三個不同部分所組成的3D物體。
此后,該團隊在分離3D物體中的材質(zhì)和光照方面取得了重大進展,這反過來又提高了AI生成幾何體的可編輯能力,創(chuàng)造者們能夠輕松地對在場景中移動的物體替換材質(zhì)或者調(diào)整光照。
本次發(fā)布相關(guān)精彩視頻已在NVIDIA中國西瓜視頻賬號發(fā)布,也可直接在附件下載使用:
3D MoMa 材質(zhì)和光照演示
這項研究工作依靠的著色模型采用NVIDIA RTX GPU加速光線追蹤技術(shù),更為逼真。該成果正在NeurIPS大會上以海報形式展示。
提高語言模型生成文本的事實準確性
另一篇被NeurIPS收錄的論文研究的是預(yù)訓(xùn)練語言模型的一項重大難題——AI生成文本的事實準確性。
由于AI只是通過關(guān)聯(lián)單詞來預(yù)測句子接下來的內(nèi)容,因此為生成開放式文本而訓(xùn)練的語言模型往往會產(chǎn)生包含非事實信息的文本。在這篇論文中,NVIDIA研究人員提出了能夠突破這一局限性的技術(shù),這也是為現(xiàn)實世界應(yīng)用部署此類模型的必要前提。
研究人員建立了首個能夠衡量生成開放式文本語言模型事實準確性的自動化基準,并發(fā)現(xiàn)擁有數(shù)十億參數(shù)的大型語言模型比小型語言模型的事實準確性更高。該研究團隊提出了一項新的技術(shù)——事實性強化訓(xùn)練,以及一種新穎的采樣算法,通過兩者的結(jié)合,助力訓(xùn)練語言模型生成準確的文本,并且將事實性錯誤率從33%降低到15%左右。
目前,NVIDIA在全球共有300多名研究人員,團隊專注的課題領(lǐng)域涵蓋AI、計算機圖形學(xué)、計算機視覺、自動駕駛汽車和機器人技術(shù)等。進一步了解NVIDIA Research并查看NeurIPS收錄的所有NVIDIA論文列表。