作者 |??程茜,編輯?|??漠影
存算一體架構(gòu)已經(jīng)為邊端大模型部署提供了一種高效解決方案。
大模型這把火,已經(jīng)燒到了邊端設(shè)備!一段時間以來,能更好適配手機、PC等邊緣設(shè)備的端側(cè)模型如雨后春筍般接連冒出,微軟、蘋果、Hugging Face、OpenAI、Mistral、谷歌等連珠炮式甩下輕量級模型;AI PC、AI手機、汽車座艙等大模型加持的邊端設(shè)備層出不窮,產(chǎn)業(yè)鏈上下游玩家爭相入場。
隨著技術(shù)的成熟和應(yīng)用場景的拓展,端側(cè)大模型市場已經(jīng)成為AI領(lǐng)域的一個重要增長點,但對于邊端設(shè)備而言,承載大模型能力非一日之功,即便參數(shù)規(guī)模下降為大模型落地部署提供了條件,邊端設(shè)備本身的硬件載體同樣至關(guān)重要。
因此,連接大模型與邊端設(shè)備能力的底層芯片玩家成為其中的關(guān)鍵變量。那么,在邊端大模型部署落地加速的背景下,還是非GPU不可嗎?什么樣的芯片架構(gòu)將成為邊端玩家首選?
01.大模型向邊端側(cè)下沉多種應(yīng)用方向探索已涌現(xiàn)
大模型加速落地應(yīng)用已經(jīng)成為共識,云端大模型向邊端下沉的產(chǎn)業(yè)趨勢日漸明顯,邊端大模型爆發(fā)前夜已至。一方面,邊端大模型的參數(shù)規(guī)模、性能表現(xiàn)與企業(yè)的需求正相互契合。
首先,動輒千億、萬億參數(shù)規(guī)模的大模型背后是無底洞似的燒錢游戲,與尚沒有探索出高利潤商業(yè)模式的現(xiàn)狀相比,鮮少有企業(yè)能持續(xù)投入。因此,“大模型反卷小型化”成為一大趨勢,性能優(yōu)越、更易部署、更具性價比的小模型成為玩家們爭奪市場的關(guān)鍵。部署在邊端設(shè)備上的模型可以滿足不同需求,使得所有規(guī)模的企業(yè)和組織都能找到適合自己的最優(yōu)解。
其次,從實際性能表現(xiàn)來看,云端大模型對于企業(yè)核心痛點需求、個性化任務(wù)的處理能力,都遠(yuǎn)不如距離業(yè)務(wù)、用戶更近的邊緣端。因此其在私有化部署、個性化處理、數(shù)據(jù)安全與隱私等方面都更具差異化優(yōu)勢。另一方面,軟硬件的提升為邊端大模型走向現(xiàn)實提供了必要條件。諸多小參數(shù)模型已經(jīng)展現(xiàn)出強大性能表現(xiàn),邊端設(shè)備承載大模型能力的可能性顯著提高。
微軟發(fā)布的參數(shù)規(guī)模僅為3.8B、7B、14B的Phi-3系列模型,在下圖的性能對比中,參數(shù)規(guī)模較小的模型與GPT-3.5的性能差距并不大,且在一些評測指標(biāo)上已經(jīng)超過GPT-3.5??梢钥闯?,參數(shù)規(guī)模、模型大小不再是決定模型性能的唯一指標(biāo)。
同時,模型的量化壓縮、模型裁剪、知識蒸餾等技術(shù)加速演進(jìn),使得大模型可以在不影響性能的前提下減小模型尺寸和計算量,從而可以部署到邊端設(shè)備中。邊緣設(shè)備需具備更強的計算性能,包括更高的算力、足夠的顯存和合理的功耗等。專門為邊緣計算設(shè)計的AI芯片涌現(xiàn),在硬件層面為邊端大模型落地提供了基石??梢哉f,不論從模型能力本身,還是邊端設(shè)備的升級優(yōu)化來看,大模型向邊端下沉已經(jīng)成為必然,且是讓大模型能為企業(yè)帶來經(jīng)濟(jì)效益提升的有效路徑。
如今,AI PC、汽車座艙大模型、智慧商顯等領(lǐng)域已經(jīng)率先展現(xiàn)出爆發(fā)潛力,成為邊端大模型落地的主要方向。全球市研機構(gòu)Canalys發(fā)布的數(shù)據(jù)顯示,今年第二季度,全球AI PC出貨量達(dá)880萬臺,占當(dāng)季所有PC出貨量的14%。大模型與PC的結(jié)合使得這一設(shè)備的生產(chǎn)力工具屬性被無限放大。曾經(jīng)PC只是被用于制作PPT、處理工作的工具載體,而現(xiàn)在基于內(nèi)置AI能力,用戶只需要語音、手勢等交互,就可以讓其輔助生產(chǎn)、創(chuàng)作,快速完成一份PPT或者生成一篇文章的文章。
AI PC為用戶帶來了更好體驗,能實際解決曾經(jīng)用戶使用傳統(tǒng)PC時的諸多痛點,并實現(xiàn)降本增效。
第二大較為突出的場景就是汽車座艙,大模型對于自然語言的理解、生成能力,使得其可以綜合處理語音、視覺、視覺等多模態(tài)數(shù)據(jù),并能夠提供千人千面的語音識別、娛樂信息及駕駛輔助個性化定制服務(wù)。相比于只能通過傳統(tǒng)物理按鍵進(jìn)行交互的傳統(tǒng)座艙,大模型加持的座艙功能可實現(xiàn)的范圍邊界逐漸外延。這也使得智能座艙市場的規(guī)模正處于飛速增長階段,全球交易咨詢服務(wù)提供商畢馬威中國預(yù)計,2026年中國智能座艙市場規(guī)模將達(dá)到2127億元,5年復(fù)合增長率將超過17%。還有如今國內(nèi)企業(yè)出海加速,需要與海外客戶合作、開會等場景,智慧商顯、會議軟件等內(nèi)置的大模型加持工具可以提供實時翻譯、會議紀(jì)要生成等。這些能夠切實解決用戶辦公特點的功能幾乎已經(jīng)成為設(shè)備標(biāo)配。
國內(nèi)市研機構(gòu)洛圖科技的數(shù)據(jù)顯示,2024年,中國大陸會議場景中顯示產(chǎn)品的市場規(guī)模將達(dá)130億元,同比2023年增長6.5%。這些適用于大模型應(yīng)用落地的場景有一個共同特點就是,能夠真正基于邊端大模型的能力,為客戶真正解決痛點帶來價值。
02.借創(chuàng)新架構(gòu)之力破局邊端大模型落地的算力難題
大模型真正落地部署到邊端設(shè)備上,還有一個被考驗的關(guān)鍵角色就是底層芯片玩家,其背后的挑戰(zhàn)巨大。原因在于邊端往往只有一個獨立設(shè)備,其散熱條件、體積大小等都會受限,需要芯片兼具體積小、性能強、功耗低。且在成本和數(shù)據(jù)方面,邊端設(shè)備玩家也更為敏感,邊端設(shè)備往往需要處理企業(yè)或個人的內(nèi)部數(shù)據(jù),數(shù)據(jù)隱私和安全更為敏感,需要防止數(shù)據(jù)泄漏和濫用。此外在一些實時性要求較高的自動駕駛、工業(yè)控制等場景,需要大模型能夠更快響應(yīng)作出決策。
這些既對芯片玩家提出了不小的挑戰(zhàn),同時也是邊端大模型落地部署的必要條件,底層芯片玩家只有將這些已經(jīng)擺在桌子上的難題逐個擊破,才能占據(jù)先機。隨著大模型應(yīng)用落地加速,推理需求增加,芯片格局已經(jīng)從GPU一家獨大的局面向異構(gòu)CPU、NPU各路芯片群雄逐鹿的時代變遷。起初,擁有強大并行計算能力的GPU無疑是大模型訓(xùn)練的首選,其可以在短時間內(nèi)完成大量計算任務(wù)。
但在AI推理階段,一些場景下GPU的整體性能表現(xiàn)并非最佳。對功耗、成本敏感的邊端設(shè)備就是一大典型場景。除了居高不下的價格,GPU還因為擁有大量的核心和線程,需要處理大量數(shù)據(jù),但每個核心都需要消耗電能,隨之上升的就是整體能耗,再加上需要足夠高效的散熱系統(tǒng)來保證GPU在適宜溫度運行,就會進(jìn)一步增加能耗。這一背景下,在邊端場景催生了異構(gòu)CPU和NPU兩種方案。異構(gòu)CPU就是將NPU集成于CPU之上,使其可以更好適應(yīng)不同種類任務(wù),能實現(xiàn)性能、功耗、成本的平衡,適應(yīng)多元化且復(fù)雜的計算需求。
這種設(shè)計的好處在于,一方面可以將更多的晶體管資源用在能夠進(jìn)一步提升多核性能的能效核上,或用于提升總體性能的緩存上;另一方面可以留出散熱空間,提升運行頻率來獲取最高的單核性能。然而,集成多種不同類型的核心和技術(shù),也為邊端設(shè)備集成異構(gòu)CPU帶來了更高的設(shè)計和制造成本。再加上其編程和優(yōu)化相對復(fù)雜,需要開發(fā)者更熟知不同核心的性能和特點。
因此,這一架構(gòu)對于邊端設(shè)備玩家而言并不是最佳方案。專為AI設(shè)計的NPU芯片,在當(dāng)下幾乎已經(jīng)成為大模型在邊端應(yīng)用的最優(yōu)解之一。相比于異構(gòu)CPU和GPU,NPU在神經(jīng)網(wǎng)絡(luò)高效運行方面的適配性都要更高,且其具備的高性能、低功耗優(yōu)勢也與邊端大模型部署十分契合。NPU可以根據(jù)特定應(yīng)用場景優(yōu)化,能在有效降低功耗的同時,滿足邊端設(shè)備對功耗的限制。這對邊端設(shè)備部署大模型時的功耗、性能、成本等都帶來了更為靈活且可擴展的解決方案。一方面,通過先進(jìn)工藝制程、低功耗設(shè)計技術(shù)以及算法與硬件的協(xié)同優(yōu)化,能夠提升芯片性能和能效比。另外一方面,通過架構(gòu)創(chuàng)新,提高芯片計算速度和效率。
值得一提的是,在邊端大模型落地中,芯片架構(gòu)創(chuàng)新越來越成為關(guān)鍵。存算一體、可重構(gòu)計算架構(gòu)、DSA專用領(lǐng)域架構(gòu)等諸多創(chuàng)新涌現(xiàn),為邊緣設(shè)備提供了更為強大的計算能力。在這之中,因為大模型所需的計算量和數(shù)據(jù)存儲量激增,因此在強大算力背后,高效存儲和數(shù)據(jù)通信機制同樣重要,如何解決內(nèi)存墻和存儲墻問題成為拉開NPU利用率的關(guān)鍵。
正因如此,存算一體架構(gòu)成為其提升計算效率和降低功耗的重要途徑。存算一體架構(gòu)的優(yōu)勢,主要體現(xiàn)在高效計算、功耗、性能三個維度。首先,存算一體架構(gòu)將存儲與計算集成在統(tǒng)一芯片上,可以避免傳統(tǒng)架構(gòu)中數(shù)據(jù)在存儲器和處理器之間頻繁傳輸所產(chǎn)生的延遲?;诖?,邊端大模型應(yīng)用時能更快獲取和處理數(shù)據(jù),提高響應(yīng)速度,滿足實時性要求。這也在一定程度上能減少數(shù)據(jù)的搬運,減少對內(nèi)存帶寬的需求,避免大模型因內(nèi)存帶寬不足而導(dǎo)致出現(xiàn)性能瓶頸。
同時,這一架構(gòu)通過在存儲單元中直接進(jìn)行計算,能夠同時對多個數(shù)據(jù)進(jìn)行處理,提高了計算效率和吞吐量,能夠快速處理邊端大模型應(yīng)用中語義理解、圖像識別、特征提取等復(fù)雜的計算任務(wù)。其次,功耗方面,存算一體架構(gòu)省去了傳統(tǒng)計算架構(gòu)中數(shù)據(jù)搬運過程,能降低損耗,保證需要長時間待機或間歇性工作的邊端設(shè)備,能夠在非工作期間降低功耗損耗。因此與傳統(tǒng)架構(gòu)相比,在相同的算力輸出下,存算一體架構(gòu)的能效比有顯著提升。綜上,通過優(yōu)化數(shù)據(jù)處理方式、降低功耗、提高性能的存算一體架構(gòu),已經(jīng)為邊端大模型的部署提供了一種高效的解決方案。
03.國內(nèi)AI芯片創(chuàng)企邊端大模型系列產(chǎn)品落地最高算力100TOPS
大幅提升計算能力的存算一體芯片概念隨之日趨火熱,主攻這一技術(shù)路線的國內(nèi)AI芯片創(chuàng)企后摩智能在當(dāng)下拿出了自己的最新成果。近日,后摩智能基于存算一體推出了邊端大模型AI芯片后摩漫界M30,并基于這一芯片構(gòu)建了智算模組和力謀AI加速卡。
從M30來看,存算一體架構(gòu)已經(jīng)成為其加速邊端大模型部署落地的殺手锏。這也是一直以來后摩智能技術(shù)路線的演進(jìn)方向,用更高的性能、更低的成本、更低的功耗提供大模型運行的計算底座。后摩智能聯(lián)合創(chuàng)始人、產(chǎn)品副總裁信曉旭透露,將持續(xù)沿著架構(gòu)創(chuàng)新這條路為邊端大模型的商業(yè)化落地,實現(xiàn)真正普惠的AI提供算力保障。
面向?qū)嶋H應(yīng)用落地場景,后摩智能考慮的維度是要兼顧計算性能以及成本、功耗以及易用性。
他補充說,一方面即便在端側(cè)部署,模型大小繼續(xù)上漲的趨勢仍然可能存在,更大參數(shù)規(guī)模的模型更為智能,隨之而來的就是更好的用戶體驗、更大的商業(yè)前景,實現(xiàn)商業(yè)閉環(huán);另一方面就是持續(xù)降成本、降功耗,這也是邊端設(shè)備玩家一直關(guān)注的重點。
目前,后摩漫界M30最高算力可達(dá)100TOPS,典型功耗為12W,可以支持ChatGLM、Llama 2、通義千問等主流大模型,實時運行性能可以達(dá)到每秒15-20 Tokens。同時,在賦予邊端側(cè)設(shè)備大模型能力這件事,后摩智能堅持的還有讓企業(yè)付出的成本、時間都更少。這塊芯片可以通過“+AI”的方式為邊端設(shè)備提供大模型能力。信曉旭解釋說,“+AI”的方式主要考慮企業(yè)的技術(shù)落地成本,其可以通過標(biāo)準(zhǔn)的PCIe口和原來的主處理器對接,讓企業(yè)以最少的成本和改變就能直接調(diào)用大模型能力,縮短企業(yè)的開發(fā)周期與落地部署時間。
對于數(shù)據(jù)隱私保護(hù),信曉旭認(rèn)為,大模型輸入輸出的內(nèi)容已經(jīng)從簡單的圖像、文字向音視頻、3D等形態(tài)延伸,未來用戶家庭中的攝像頭等智能終端采集到的信息,如果被送往云端其隱私安全無法被保證。而本地私有化部署的邊端大模型就可以基于這些數(shù)據(jù)生成更懂用戶的AI。在產(chǎn)品布局與技術(shù)創(chuàng)新的同步推進(jìn)下,為了加速存算一體AI芯片產(chǎn)業(yè)化,后摩智能還與中國移動正式簽署戰(zhàn)略合作,聯(lián)合推進(jìn)存算一體AI芯片的創(chuàng)新研發(fā)和量產(chǎn)應(yīng)用。同時,中國移動也是后摩智能布局邊端大模型落地業(yè)務(wù)中的重要合作伙伴。雙方的合作重點聚焦于智慧中屏、家庭智能終端、機器人等高度適配“+AI”模式的邊端應(yīng)用場景。
在AI PC方面,后摩智能已經(jīng)與行業(yè)頭部玩家聯(lián)想達(dá)成戰(zhàn)略合作,信曉旭談道,如果用激進(jìn)的眼光看待PC產(chǎn)業(yè)的發(fā)展,AI PC未來的核心計算單元可能會是AI,CPU可能會變成輔助。
因此,在AI PC的技術(shù)布局下,作為底層芯片玩家的后摩智能正融入頭部玩家的生態(tài)中占據(jù)先機。大模型向邊端設(shè)備下沉的產(chǎn)業(yè)趨勢已經(jīng)不可逆轉(zhuǎn),在信曉旭看來,設(shè)備更加多元化的端側(cè)和邊緣側(cè),其承載AI能力在未來會比云端更具生命力,這也是將成為真正讓AI能夠讓更多人受益的更廣泛技術(shù)和場景。身處其中的AI芯片玩家,如何實現(xiàn)芯片性能突破、產(chǎn)業(yè)鏈協(xié)同等將成為這一產(chǎn)業(yè)趨勢下?lián)屨际袌鱿葯C的護(hù)城河。
04.結(jié)語:邊端大模型亟待起飛AI芯片創(chuàng)企迎新機遇
在應(yīng)用落地端,國內(nèi)大模型產(chǎn)業(yè)已經(jīng)風(fēng)起云涌,參數(shù)規(guī)模龐大的通用大模型目前尚未看到高性價比的落地應(yīng)用場景,但靠近用戶與企業(yè)業(yè)務(wù)的邊端設(shè)備玩家已經(jīng)開始探索大模型的深度應(yīng)用。考慮到邊端設(shè)備的核心特性,后摩智能的目標(biāo)很明確,就是為合作伙伴提供足夠便宜、功耗低、易用性強的芯片,這樣的產(chǎn)品目標(biāo)與當(dāng)下大模型產(chǎn)業(yè)下沉趨勢的需求十分契合。
伴隨著更靠近數(shù)據(jù)源、響應(yīng)更快、延遲更低的邊端大模型展現(xiàn)出騰飛的可能,芯片玩家與之協(xié)同探索產(chǎn)業(yè)變革的機遇點,以后摩智能為代表的國內(nèi)AI芯片玩家已經(jīng)拿出了更強的解決方案,這也同樣是在GPU、CPU架構(gòu)之外,創(chuàng)新架構(gòu)的市場機遇。在此背景下,錨定對解決大模型存儲墻有著天然優(yōu)勢存算一體架構(gòu)的后摩智能,將有望更快找到大模型深入行業(yè)的更大價值。