www.欧美精品,亚洲精品在线永久

NVIDIA Research 發(fā)表 50 多篇論文，介紹 AI 軟件在創(chuàng)意產(chǎn)業(yè)、自動(dòng)駕駛汽車開(kāi)發(fā)、醫(yī)療和機(jī)器人領(lǐng)域的潛在應(yīng)用。

NVIDIA 的研究人員站在快速發(fā)展的視覺(jué)生成式 AI 領(lǐng)域最前沿，正在開(kāi)發(fā)用于創(chuàng)建和解釋圖像、視頻與 3D 環(huán)境的新技術(shù)。

NVIDIA 將在 6 月 17 日至 21 日于西雅圖舉行的國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議（CVPR）上展示 50 多個(gè)此類項(xiàng)目成果。其中的兩篇論文（一篇關(guān)于擴(kuò)散模型訓(xùn)練動(dòng)態(tài)，另一篇關(guān)于自動(dòng)駕駛汽車高清地圖）入圍了 CVPR 最佳論文獎(jiǎng)。

NVIDIA 同時(shí)還在 CVPR 自動(dòng)駕駛大型挑戰(zhàn)賽中獲得了大規(guī)模端到端駕駛類別第一名。這座重要的里程碑代表 NVIDIA 正在將生成式 AI 全面應(yīng)用于自動(dòng)駕駛模型。NVIDIA 提交的獲獎(jiǎng)作品在全球 450 多件參賽作品中脫穎而出，還獲得了 CVPR 創(chuàng)新獎(jiǎng)。

NVIDIA 在 CVPR 上展示的研究成果包括：一種可輕松定制以描繪特定物體或角色的文本轉(zhuǎn)圖像模型、全新的物體姿態(tài)估計(jì)模型、神經(jīng)輻射場(chǎng)（NeRF）編輯技術(shù)以及一種能夠理解流行語(yǔ)的視覺(jué)語(yǔ)言模型等。另外還展示了介紹汽車、醫(yī)療和機(jī)器人等行業(yè)的特定領(lǐng)域創(chuàng)新的論文。

這些研究成果都加入了強(qiáng)大的 AI 模型，幫助創(chuàng)作者能夠更快地將其藝術(shù)構(gòu)想變?yōu)楝F(xiàn)實(shí)，加快制造業(yè)自主機(jī)器人的訓(xùn)練速度，通過(guò)協(xié)助處理放射學(xué)報(bào)告為醫(yī)療專業(yè)人員提供支持。

NVIDIA 感知與學(xué)習(xí)研究副總裁 Jan Kautz 表示：“人工智能，尤其是生成式人工智能，是一次關(guān)鍵的技術(shù)進(jìn)步。從可以為專業(yè)創(chuàng)作者提供超強(qiáng)助力的強(qiáng)大圖像生成模型，一直擴(kuò)展到可以幫助開(kāi)發(fā)新一代自動(dòng)駕駛汽車的自動(dòng)駕駛軟件，都將在 CVPR 上呈現(xiàn) NVIDIA Research 如何不斷拓寬技術(shù)邊界?！?/p>

NVIDIA 還在 CVPR 上發(fā)布了 NVIDIA Omniverse Cloud Sensor RTX，這套能實(shí)現(xiàn)物理級(jí)精確傳感器仿真的微服務(wù)，從而加速各類全自主機(jī)器的開(kāi)發(fā)工作。

無(wú)需微調(diào)，JeDi 簡(jiǎn)化自定義圖像生成

擴(kuò)散模型是當(dāng)前基于文本生成圖像的核心方法。使用擴(kuò)散模型的創(chuàng)作者通常以一個(gè)特定的角色或物體為中心，例如圍繞一只動(dòng)畫老鼠創(chuàng)作一個(gè)故事，或者集思廣益討論一款特定玩具的廣告等。

此前的研究已經(jīng)讓這些創(chuàng)作者能夠通過(guò)微調(diào)（即用戶在自定義數(shù)據(jù)集上訓(xùn)練模型）對(duì)擴(kuò)散模型的輸出結(jié)果進(jìn)行個(gè)性化處理，使模型能夠?qū)Ｗ⒂谔囟ǖ闹黝}。但這一過(guò)程非常耗時(shí)，而且不支持普通用戶使用。

由約翰-霍普金斯大學(xué)（Johns Hopkins University）、豐田工業(yè)大學(xué)芝加哥分校（Toyota Technological Institute at Chicago）和 NVIDIA 研究人員共同撰寫的論文《JeDi》提出了一種新的技術(shù)，使用戶只需要使用參考圖像就能在幾秒鐘內(nèi)輕松實(shí)現(xiàn)個(gè)性化的擴(kuò)散模型輸出結(jié)果。研究小組發(fā)現(xiàn)該模型達(dá)到了最先進(jìn)的質(zhì)量水平，明顯優(yōu)于當(dāng)前基于微調(diào)和無(wú)微調(diào)的方法。

JeDi 還可以與檢索增強(qiáng)生成（RAG）相結(jié)合，為品牌產(chǎn)品目錄等數(shù)據(jù)庫(kù)生成特定視覺(jué)效果。

新基礎(chǔ)模型讓姿態(tài)更完美

NVIDIA 研究人員還在 CVPR 上展示了用于物體姿態(tài)估計(jì)和跟蹤的基礎(chǔ)模型 FoundationPose。該模型無(wú)需進(jìn)行微調(diào)，即可在推理過(guò)程中即時(shí)應(yīng)用于新的物體。

該模型通過(guò)一小組參考圖像或者物體的 3D 呈現(xiàn)了解物體的形狀，并且在流行的物體姿態(tài)估計(jì)基準(zhǔn)測(cè)試中創(chuàng)下了新紀(jì)錄。在了解物體形狀后，它就可以識(shí)別并跟蹤物體在視頻中的 3D 移動(dòng)和旋轉(zhuǎn)情況，即使在光線條件較差或有視覺(jué)障礙物的復(fù)雜場(chǎng)景中也不受影響。

FoundationPose 可用于工業(yè)應(yīng)用，以幫助自主機(jī)器人識(shí)別和跟蹤與之交互的物體。它還可以用于增強(qiáng)現(xiàn)實(shí)應(yīng)用，使用 AI 模型在實(shí)時(shí)場(chǎng)景上疊加視覺(jué)效果。

NeRFDeformer 轉(zhuǎn)換 3D 場(chǎng)景，只需一張快照

NeRF 是一種 AI 模型，可以基于在環(huán)境不同位置拍攝的一系列 2D 圖像進(jìn)行 3D 場(chǎng)景渲染。在機(jī)器人等領(lǐng)域，NeRF 可用于生成現(xiàn)實(shí)世界復(fù)雜場(chǎng)景的沉浸式 3D 渲染，例如雜亂無(wú)章的房間或建筑工地等。一旦需要進(jìn)行更改，開(kāi)發(fā)人員就需要手動(dòng)定義場(chǎng)景的轉(zhuǎn)變方式，或者重新制作 NeRF。

伊利諾伊大學(xué)香檳分校（University of Illinois Urbana-Champaign）和 NVIDIA 的研究人員則使用 NeRFDeformer 簡(jiǎn)化了這一過(guò)程。在 CVPR 大會(huì)上展示的這一方法，可以利用單張 RGB-D 圖像成功轉(zhuǎn)換現(xiàn)有的 NeRF。RGB-D 圖像由正常照片與深度圖組合而成，深度圖可以捕捉到場(chǎng)景中每個(gè)物體與攝像機(jī)之間的距離。

VILA 視覺(jué)語(yǔ)言模型獲取圖像

NVIDIA 與麻省理工學(xué)院（MIT）聯(lián)合開(kāi)展的 CVPR 研究項(xiàng)目正在推動(dòng)視覺(jué)語(yǔ)言模型技術(shù)的發(fā)展。視覺(jué)語(yǔ)言模型是一種能夠處理視頻、圖像和文本的生成式 AI 模型。

該研究小組開(kāi)發(fā)的 VILA 是一個(gè)開(kāi)源視覺(jué)語(yǔ)言模型系列。在測(cè)試 AI 模型回答圖像問(wèn)題能力的關(guān)鍵基準(zhǔn)測(cè)試中，VILA 的表現(xiàn)優(yōu)于先前的神經(jīng)網(wǎng)絡(luò)。VILA 獨(dú)特的預(yù)訓(xùn)練流程解鎖了新的模型能力，包括更加深厚的世界知識(shí)、更強(qiáng)大的上下文學(xué)習(xí)能力以及多圖像間的推理能力。

VILA 可以理解流行語(yǔ)并基于多個(gè)圖像或視頻進(jìn)行推理。

VILA 模型系列支持使用 NVIDIA TensorRT-LLM 開(kāi)源程序庫(kù)進(jìn)行推理優(yōu)化，并且可以部署在數(shù)據(jù)中心、工作站甚至邊緣設(shè)備的 NVIDIA GPU上。
在 NVIDIA 技術(shù)博客和 GitHub 上均可進(jìn)一步了解 VILA。

生成式 AI 助力自動(dòng)駕駛和智慧城市研究

在 NVIDIA 主筆的 CVPR 論文中，關(guān)于自動(dòng)駕駛汽車研究的論文有十多篇。其他與自動(dòng)駕駛汽車相關(guān)的重點(diǎn)內(nèi)容包括：

NVIDIA 自動(dòng)駕駛汽車應(yīng)用研究，贏得 CVPR 自動(dòng)駕駛挑戰(zhàn)賽冠軍并在如下 demo 中進(jìn)行了演示。
NVIDIA AI 研究副總裁 Sanja Fidler 于 6 月 17 日的自動(dòng)駕駛研討會(huì)上發(fā)表關(guān)于視覺(jué)語(yǔ)言模型的演講。
多倫多大學(xué)和 NVIDIA 研究人員共同撰寫的論文《在軌跡預(yù)測(cè)中生成和利用在線地圖的不確定性》成為 24 篇入圍 CVPR 最佳論文獎(jiǎng)的論文之一。

此外，在本屆 CVPR 上，NVIDIA 為 AI 城市挑戰(zhàn)賽提供了有史以來(lái)最大的室內(nèi)合成數(shù)據(jù)集，助力研究人員和開(kāi)發(fā)人員推進(jìn)智慧城市與工業(yè)自動(dòng)化解決方案的開(kāi)發(fā)。該挑戰(zhàn)賽的數(shù)據(jù)集使用 NVIDIA Omniverse 生成，這是一個(gè)由 API、SDK 和服務(wù)構(gòu)成的平臺(tái)，可幫助開(kāi)發(fā)人員構(gòu)建基于通用場(chǎng)景描述（OpenUSD）的應(yīng)用和工作流。

NVIDIA Research 在全球擁有數(shù)百名科學(xué)家和工程師，專注于 AI、計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺(jué)、自動(dòng)駕駛汽車和機(jī)器人等領(lǐng)域的研究。了解更多有關(guān) NVIDIA Research 在 CVPR 上的相關(guān)信息。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
SS14L	1	HY Electronic Corp	Rectifier Diode, Schottky, 1 Element, 1A, 40V V(RRM), Silicon		$0.11	查看
C4532X7R1E226M250KC	1	TDK Corporation	Ceramic Capacitor, Multilayer, Ceramic, 25V, 20% +Tol, 20% -Tol, X7R, 15% TC, 22uF, Surface Mount, 1812, CHIP, ROHS COMPLIANT	ECAD模型下載ECAD模型	$1.19	查看
MBRS140T3G	1	onsemi	1.0 A, 40 V, Schottky Power Rectifier, Surface Mount, SMB, 2500-REEL	ECAD模型下載ECAD模型	$0.52	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

SS14L

HY Electronic Corp

Rectifier Diode, Schottky, 1 Element, 1A, 40V V(RRM), Silicon