英偉達一邊忙著打造性能強悍的計算平臺,一邊已經(jīng)預見了生成式AI業(yè)務部署所面臨的巨大挑戰(zhàn)。如果說Blackwell是英偉達為了未來萬億參數(shù)AI大模型所創(chuàng)造的全新的硬件計算方式,那么軟件方面,NIM推理微服務有望為英偉達開啟新的發(fā)展篇章,進一步筑牢、筑深它在人工智能領域的領導地位。
日前,英偉達也發(fā)布了最新預訓練、可定制的AI工作流目錄NVIDIA NIM Agent Blueprints,這進一步提升了NIM的能力。通過NIM Agent Blueprints,開發(fā)者能夠迅速開始創(chuàng)建使用一個或多個AI智能體的AI應用。目前英偉達共推出3個NIM Agent Blueprints,包括適用于客戶服務的數(shù)字人工作流、適用于計算機輔助藥物研發(fā)的生成式虛擬篩選工作流,以及適用于企業(yè)檢索增強生成(RAG)的多模態(tài)PDF數(shù)據(jù)提取工作流,企業(yè)可以根據(jù)用戶反饋不斷完善其AI應用,形成一個數(shù)據(jù)驅(qū)動型的AI飛輪。據(jù)悉,英偉達未來將計劃推出更多新的NIM Agent Blueprints,助力企業(yè)打造屬于自己的AI。
彌合生成式AI與企業(yè)落地之間的鴻溝
以ChatGPT為代表的AI大模型還在變得越來越龐大。一方面,要學習的東西還很多,另一方面,它可以學習的方式和渠道在變多:它可以從文字、圖像和視頻中學習,可以通過合成數(shù)據(jù)學習,也可以通過強化學習的方式學習……隨著時間推移,這些模型變得越來越復雜。
當企業(yè)把它們轉(zhuǎn)向大規(guī)模的生產(chǎn)部署時,這其中的工作包括將AI模型連接到企業(yè)現(xiàn)有的基礎設施,需要優(yōu)化系統(tǒng)延遲和吞吐量、監(jiān)控和安全性等等,開發(fā)生成式AI應用還涉及到數(shù)據(jù)的預處理、模型推理和后處理……這是一個既復雜又耗時的過程,涉及到專門的技能、平臺和流程等等。
為了簡化生成式AI的部署,彌合復雜的AI開發(fā)環(huán)境與企業(yè)運營需求之間的差距,英偉達今年推出了一款可加速AI部署且易于使用的工具——NVIDIA NIM推理微服務。它可以將模型作為經(jīng)過優(yōu)化的容器提供,以便在云端、數(shù)據(jù)中心、工作站、臺式電腦和筆記本電腦中部署模型。每個NIM容器都包含經(jīng)過預訓練的AI模型和所有必要的運行時組件,可讓用戶輕松地將AI功能集成到應用中,實現(xiàn)顯著的效率提升。
什么是NVIDIA NIM推理微服務?
剖析AI應用的基礎模組來看,微服務已經(jīng)成為了一種強大的架構,從根本上改變了人們設計、構建和部署軟件的方式。它的可擴展性、增強的模塊化屬性和靈活性,特別適用于開發(fā)生成式AI應用,能夠讓這些資源密集型組件實現(xiàn)高效擴展,同時避免對整個系統(tǒng)產(chǎn)生影響。
不同于傳統(tǒng)軟件的一體化架構,將一個應用內(nèi)所有功能和服務都“鎖”在一起,微服務架構是一種模塊化的思路,它可以將應用分解為一系列可獨立部署的松散耦合服務。每個服務都負責一項特定的功能,并通過明確定義的應用編程接口(API)與其他服務通信。這樣一來,不僅便于開發(fā)人員更加輕松地管理和優(yōu)化這些服務,還可以根據(jù)需求獨立擴展服務,從而優(yōu)化了資源利用率并提高系統(tǒng)的整體性能。
NVIDIA NIM推理微服務本質(zhì)上就是這樣的構建原理,它是一套經(jīng)過優(yōu)化的云原生微服務,把所有軟件都集成到一個容器中,包含行業(yè)標準API、特定領域的代碼、優(yōu)化的推理引擎等等,創(chuàng)造了用收發(fā)請求來進行軟件開發(fā)的新方法。
根據(jù)NIM推理微服務的技術架構概覽圖(下圖),可以看到NIM作為NVIDIA AI Enterprise的一部分,支持在生產(chǎn)環(huán)境中部署AI應用,它為用戶提供了預先配置好的容器化環(huán)境和Kubernetes部署工具,以便快速部署和管理AI模型。開發(fā)者可以通過符合每個領域行業(yè)標準的API訪問AI模型,這些API與生態(tài)系統(tǒng)中的標準部署流程兼容,開發(fā)者能夠快速更新其AI應用 (通常只需3行代碼)。這使得開發(fā)者無需大量定制或?qū)I(yè)知識,就能夠?qū)IM集成到其現(xiàn)有應用程序和基礎設施中。
來源:英偉達官網(wǎng)
NIM可用于GPU加速推理,其中包括NVIDIA CUDA軟件、NVIDIA Triton推理服務器和NVIDIA TensorRT-LLM軟件。其無縫集成和易用性有助于在企業(yè)環(huán)境中快速部署和擴展AI解決方案,在幫助企業(yè)快速地將AI集成到其業(yè)務流程中的同時,依然保持高度的靈活性和擴展性。
對于生成式AI應用覆蓋的特定領域,比如語言、語音、視頻處理、醫(yī)療健康等,NIM還包含了特定的NVIDIA CUDA庫,以及針對這些領域量身定制的專用代碼,以確保應用程序準確無誤并與其特定用例相關。
為了在加速基礎設施上提供盡可能好的延遲和吞吐量,NIM針對每個模型和硬件設置優(yōu)化了推理引擎,從而降低了在擴展推理工作負載時的成本,并改善了最終用戶體驗。同時,為了保證數(shù)據(jù)的安全性、同時實現(xiàn)更高的模型準確性和性能,NIM支持開發(fā)者使用從未離開數(shù)據(jù)中心邊界的專有數(shù)據(jù)源,來對模型進行對齊和微調(diào)。
生成式AI應用通常涉及多個步驟,例如數(shù)據(jù)預處理、模型推理和后處理。借助NIM,每個步驟都可以獨立開發(fā)、優(yōu)化和擴展。此外,隨著AI模型和技術的快速發(fā)展,NIM可使集成新模型及替換現(xiàn)有模型的過程變得更加輕松,同時不會中斷整個應用的運行。
為無數(shù)部署生成式AI的企業(yè)打開入口
NIM帶來了哪些直接好處?對于企業(yè)生產(chǎn)應用來說,它簡化了模型的集成和部署過程,能夠兼顧靈活性;對開發(fā)者來說,它提供了一種具有變革性的開發(fā)方法,使得開發(fā)者可以專注于構建應用,而無需擔心數(shù)據(jù)準備、模型訓練或自定義過于復雜,使得copilots、聊天機器人等構建生成式AI應用時,所需時間從數(shù)周縮短至幾分鐘。
借助NIM,企業(yè)可以優(yōu)化其AI基礎架構,以更大限度地提高效率和成本效益,而無需擔心 AI模型開發(fā)的復雜性和容器化。在加速AI基礎架構的基礎上,NIM有助于提高性能和可擴展性,同時降低硬件和運營成本。
這就相當于,為開發(fā)AI驅(qū)動的企業(yè)應用程序和在生產(chǎn)中部署AI模型提供了一條非常簡化的路徑,給無數(shù)想要部署生成式AI的企業(yè)打開了一個入口,使得他們能夠通過易于使用的界面,體驗各種AI模型和應用,并在企業(yè)平臺上創(chuàng)建和部署自定義應用。
NIM還可使企業(yè)最大限度利用其基礎設施投資。例如,相較于未使用NIM的情況下,在NIM中運行Meta Llama 3-8B時,后者在加速基礎設施上可產(chǎn)生高達3倍的生成式AI token。這使企業(yè)能夠大幅提高效率,使用相同的計算基礎設施來生成更多的結果。
迄今為止,全球2800萬開發(fā)者已經(jīng)可以在英偉達官網(wǎng)下載 NVIDIA NIM,近200家技術合作伙伴正在將NIM集成到他們的平臺中,以加快特定領域應用的生成式AI部署,例如 copilot、代碼助手和數(shù)字人虛擬形象。
目前在英偉達官網(wǎng)上,提供眾多熱門的NVIDIA及社區(qū)模型可作為NIM端點進行體驗。開發(fā)者可以從Hugging Face平臺上,訪問Meta最新推出的Llama 3.1模型的NVIDIA NIM推理微服務。通過基于NVIDIA GPU的Hugging Face推理端點,只需點擊幾下,開發(fā)者就能在其選擇的云平臺上訪問和運行Llama 3.1 NIM。
企業(yè)還可以使用NIM來運行用于生成文本、圖像和視頻、語音以及數(shù)字人的應用。借助面向數(shù)字生物學的NVIDIA BioNeMo NIM微服務,研究人員可以構建新的蛋白質(zhì)結構,加速藥物研發(fā)。目前,數(shù)十家醫(yī)療公司正在一系列應用中部署NIM,以便在手術規(guī)劃、數(shù)字助手、藥物研發(fā)和臨床試驗優(yōu)化等一系列應用中為生成式AI推理提供動力。
在前不久舉行的SIGGRAPH上,英偉達也宣布全球首個用于OpenUSD開發(fā)的生成式AI模型將以NVIDIA NIM推理微服務的形式提供,這些微服務可生成回答用戶查詢的OpenUSD語言、生成OpenUSD Python代碼、將材質(zhì)應用于3D物體、理解3D空間和物理學等。OpenUSD作為一個在3D世界進行開發(fā)和協(xié)作的通用框架,再輔以NIM微服務,能夠幫助開發(fā)者將生成式AI copilot和智能體整合到USD工作流中,拓寬3D世界的可能性,幫助加快USD在制造業(yè)、汽車行業(yè)和機器人等新工業(yè)領域的應用。這也意味著英偉達能夠利用生成式AI為3D數(shù)據(jù)交換框架提供增強功能,加快數(shù)字孿生的開發(fā)。
值得一提的還有人形機器人領域,NIM能夠幫助實現(xiàn)快速的原型設計和高效訓練,從而為該領域帶來革命性的影響。NIM提供了由NVIDIA推理軟件提供支持的預構建容器,使開發(fā)者能夠?qū)⒉渴饡r間從數(shù)周縮短到幾分鐘。這其中包括兩項最新的AI微服務:MimicGen NIM微服務可根據(jù)Apple Vision Pro等空間計算設備記錄的遠程操作數(shù)據(jù),生成合成運動數(shù)據(jù);Robocasa NIM 微服務可在 OpenUSD中生成機器人任務和仿真就緒環(huán)境。這些最新的NIM推理微服務為機器人專家提供了強大的支持,幫助他們簡化開發(fā)流程并加速人形機器人技術的創(chuàng)新。
實現(xiàn)閉環(huán)——發(fā)明AI,制造AI,提供AI
今年以來,你應該不止一次聽到英偉達大力推薦最新的AI Foundry平臺服務。就像臺積電為半導體公司提供從設計到生產(chǎn)的全面解決方案,NVIDIA AI Foundry為企業(yè)提供全方位的基礎設施和工具支持,包括DGX Cloud、基礎模型、NVIDIA NeMo軟件、NVIDIA專業(yè)知識以及各種生態(tài)系統(tǒng)工具和服務??梢哉f,AI Foundry是英偉達幫助企業(yè)解鎖AI的重磅舉措,使得他們在快速開發(fā)和自定義AI模型的道路上提升了一個量級。
擁有寶貴數(shù)據(jù)資產(chǎn)和特定領域知識的行業(yè)企業(yè),相當于擁有兩座數(shù)字“富礦”,他們往往有構建生成式AI定制模型平臺和服務的需求,以最大化發(fā)揮這些數(shù)字資產(chǎn)的潛能。而瓶頸往往在于此——數(shù)據(jù)不能離開企業(yè),企業(yè)本身卻不具備強大的生成式AI業(yè)務開發(fā)能力。第三方服務商在提供跨平臺的、端到端的定制平臺或服務方面往往有所掣肘,在效率、性能、成本等方面難以權衡。雖然云托管模型API可以幫助開發(fā)者著手進行開發(fā),但數(shù)據(jù)隱私、安全性、模型響應延遲、準確性、API成本和擴展相關的問題往往會阻礙應用投入生產(chǎn)環(huán)境。
NIM讓這些難題迎刃而解,再從多元化的生態(tài)系統(tǒng)來看,英偉達作為AI Foundry賦能者,還可以提供AI模型(比如Nemotron和Edify等流行的開源基礎模型),用于定制模型的軟件工具,以及由英偉達AI專家構建和支持的DGX Cloud等專用計算能力。
英偉達AI Foundry可以使用企業(yè)數(shù)據(jù)以及合成生成的數(shù)據(jù)來增強和更改預訓練基礎模型中包含的通用知識,模型被定制、評估并設置護欄后,以NVIDIA NIM推理微服務的形式輸出。NIM作為AI Foundry最終的一個輸出形式,給了企業(yè)隨時隨地部署的自由,以及通過行業(yè)標準API進行服務調(diào)用的靈活性。
來源:英偉達官網(wǎng)
一方面,NIM降低了企業(yè)進入和應用生成式AI的門檻,促進了更多的創(chuàng)新和快速迭代。另一方面,通過AI Foundry提供的標準化和模塊化AI服務,英偉達能夠幫助千行百業(yè)的企業(yè)簡化工作流程,加速AI應用的開發(fā)和部署。而更多的生成式AI在產(chǎn)業(yè)界的深度融合,將進一步顛覆AI創(chuàng)新,推動更大規(guī)模的生成式AI創(chuàng)新和落地應用。
當前,大量的數(shù)據(jù)中心正在被建造,一類是將通用計算現(xiàn)代化為加速計算數(shù)據(jù)中心,一類是生成式AI數(shù)據(jù)中心,而不論哪種,都蘊藏著巨大的市場機會。不過對于英偉達來說,賣GPU從來不只是賣GPU,其更大的商業(yè)愿景在于讓AI的蛋糕更大,讓它更易用,更便于規(guī)?;?,這樣一來,銷售GPU也好,AI軟件服務也好,都是水到渠成,形成完美商業(yè)閉環(huán),你說是不是?