作者:暢秋
有越來(lái)越多的互聯(lián)網(wǎng)和IT設(shè)備大廠開(kāi)始自研AI服務(wù)器芯片,最近,這一風(fēng)潮吹到了蘋(píng)果公司,據(jù)悉,該智能設(shè)備龍頭正在開(kāi)發(fā)用于AI服務(wù)器的定制芯片。
與微軟和谷歌等競(jìng)爭(zhēng)對(duì)手相比,蘋(píng)果在推出生成式AI方面進(jìn)展較慢,不過(guò),蘋(píng)果公司CEO庫(kù)克稱(chēng),AI已經(jīng)在蘋(píng)果產(chǎn)品的幕后發(fā)揮作用,此前有媒體報(bào)道,蘋(píng)果計(jì)劃使用AI來(lái)提高搜索存儲(chǔ)在蘋(píng)果設(shè)備上的數(shù)據(jù)的能力。
今年2月,庫(kù)克在年度股東大會(huì)上表示,使用蘋(píng)果AI技術(shù)的功能包括Vision Pro的手部跟蹤工具和Apple Watch的心率警報(bào)。他還表示,MacBook中的芯片能夠運(yùn)行AI。庫(kù)克表示,今年晚些時(shí)候,將與大家分享如何在生成式AI領(lǐng)域開(kāi)辟新天地。蘋(píng)果公司通常在6月份的年度開(kāi)發(fā)者大會(huì)上宣布新的軟件產(chǎn)品和功能。
知名分析師郭明錤在2023年10月發(fā)布的一份報(bào)告顯示,預(yù)計(jì)蘋(píng)果在2023和2024年分別采購(gòu)2000–3000臺(tái)、1.8萬(wàn)–2萬(wàn)臺(tái)AI服務(wù)器,分別占同期全球AI服務(wù)器出貨量的1.3%和5%。估算蘋(píng)果在2023和2024年需要分別支出約6.2億和47.5億美元,用于AI服務(wù)器采購(gòu)。
基于蘋(píng)果產(chǎn)品的功能需求,以及龐大的AI服務(wù)器資本支出,再結(jié)合該公司自研芯片的歷史,相信其自研AI服務(wù)器芯片是早晚的事,特別是蘋(píng)果放棄造車(chē),將資金和資源重點(diǎn)投入到AI技術(shù)和產(chǎn)品研發(fā)上,自研AI服務(wù)器芯片就更加順理成章了。
?01、AI服務(wù)器芯片的重要性
據(jù)統(tǒng)計(jì),2024年,全球服務(wù)器出貨量約1365.4萬(wàn)臺(tái),其中,各家ODM的出貨以AI服務(wù)器最為強(qiáng)勁。分析師指出,2024年,AI服務(wù)器出貨年增長(zhǎng)率和占比都將達(dá)到兩位數(shù),這主要得益于生成式AI市場(chǎng)的增長(zhǎng)。預(yù)計(jì)生成式AI市場(chǎng)規(guī)模將從2022年的400億美元增長(zhǎng)到2032年的1.3萬(wàn)億美元,年復(fù)合增長(zhǎng)率高達(dá)41.7%。
由于全球生成式AI市場(chǎng)商機(jī)與增長(zhǎng)潛力巨大,對(duì)訓(xùn)練AI系統(tǒng)的軟硬件需求量很大,使得市場(chǎng)對(duì)AI 服務(wù)器及相關(guān)芯片的需求不斷增長(zhǎng)。AI大模型迭代速度越來(lái)越快,廠商對(duì)智能算力的投入大幅增加,支持存儲(chǔ)和訓(xùn)練的高端AI服務(wù)器的需求激增,2023和2024年,大模型訓(xùn)練所需數(shù)據(jù)量激增,AI大模型廠商需要的是能夠支持存儲(chǔ)和訓(xùn)練的高端AI服務(wù)器,因此,各服務(wù)器廠商都在升級(jí)芯片規(guī)格、擴(kuò)大卡組數(shù)量。
與傳統(tǒng)服務(wù)器相比,AI服務(wù)器在多個(gè)方面有所不同。硬件方面,AI服務(wù)器采用異構(gòu)形式,內(nèi)存容量更大,可滿足不同場(chǎng)景需求;卡的數(shù)量方面,由于AI服務(wù)器需要大量計(jì)算,至少配置4個(gè)GPU卡,有的需要8個(gè);系統(tǒng)結(jié)構(gòu)方面,AI服務(wù)器在散熱、拓?fù)涞确矫孢M(jìn)行了專(zhuān)門(mén)設(shè)計(jì),以實(shí)現(xiàn)穩(wěn)定運(yùn)行。
?02、自研AI服務(wù)器芯片熱潮
根據(jù)應(yīng)用場(chǎng)景不同,AI服務(wù)器可分為深度學(xué)習(xí)訓(xùn)練型和智能應(yīng)用推理型;根據(jù)計(jì)算模塊結(jié)構(gòu)不同,AI服務(wù)器可分為CPU+GPU、CPU+ASIC、CPU+FPGA等,其中,最常見(jiàn)的是CPU+多塊GPU組合模式。
雖然AI服務(wù)器計(jì)算系統(tǒng)主要由CPU和GPU組成,但就目前而言,GPU占據(jù)了較大市場(chǎng)份額,CPU份額相對(duì)較小。在這種情況下,GPU廠商的行業(yè)地位就很凸出了。然而,雖然市場(chǎng)很大,但能夠提供高性能GPU的廠商卻很少,目前,能夠形成一定市場(chǎng)規(guī)模的廠商只有3家:英偉達(dá),AMD和英特爾。
基于這種市場(chǎng)供求關(guān)系,對(duì)AI服務(wù)器具有很大需求量的互聯(lián)網(wǎng)和IT設(shè)備大廠紛紛開(kāi)始自研相關(guān)芯片,如亞馬遜AWS,谷歌,Meta,微軟和蘋(píng)果。亞馬遜AWS自研芯片始于2015年,當(dāng)時(shí)收購(gòu)了Annapurna Labs,2018年,AWS推出了基于Arm架構(gòu)的Graviton處理器,這是其首款自研服務(wù)器芯片。
2020年,AWS發(fā)布了Graviton2。2023年12月,AWS推出了Graviton4和Trainium2,Graviton4的性能比Graviton2提升了30%,Trainium2在AI訓(xùn)練速度上提升了4倍。2016年,谷歌推出了自研的AI張量處理單元(TPU),這些專(zhuān)為機(jī)器學(xué)習(xí)設(shè)計(jì)的芯片為谷歌云平臺(tái)上提供了AI加速能力,2022年前后,谷歌開(kāi)始研發(fā)基于Arm架構(gòu)的服務(wù)器CPU,2024年4月,谷歌發(fā)布了首款自研Arm構(gòu)架CPU——Axion,并宣布該芯片已經(jīng)在內(nèi)部使用。
2020年,微軟開(kāi)始為其Azure云服務(wù)定制芯片,2023年11月,微軟推出了兩款自研芯片——Maia100和Cobalt100。Maia100是一款專(zhuān)為大語(yǔ)言模型訓(xùn)練和推理而設(shè)計(jì)的芯片,采用臺(tái)積電5nm制程,Cobalt100是一款基于Arm架構(gòu)的128核服務(wù)器CPU。今年4月初,Meta發(fā)布了新一代AI訓(xùn)練和推理加速器MTIA,其計(jì)算和內(nèi)存帶寬是上一代產(chǎn)品的兩倍多,最新版本芯片有助于驅(qū)動(dòng)Facebook和Instagram上的排名和推薦廣告模型。
?03、自研AI芯片的好處
互聯(lián)網(wǎng)和IT設(shè)備大廠自研AI芯片的核心動(dòng)機(jī)是降低成本。當(dāng)然,自研芯片的前提是自身有很大的需求量,否則自研沒(méi)有意義。這些大廠的巨量規(guī)模能夠分?jǐn)傂酒邪l(fā)成本,隨著產(chǎn)量的增加,單位芯片的成本會(huì)降低。
通過(guò)自研,這些大廠可以直接控制芯片的設(shè)計(jì)和生產(chǎn)成本,從而減少對(duì)外部供應(yīng)商的依賴。這種成本控制能力使它們能夠更有效地管理運(yùn)營(yíng)支出,提高整體利潤(rùn)率。自研芯片還可以優(yōu)化供應(yīng)鏈管理,減少中間環(huán)節(jié),從而降低采購(gòu)成本和物流成本。
此外,自研芯片可以根據(jù)云服務(wù)的具體需求進(jìn)行定制,避免不必要的功能和性能過(guò)剩,進(jìn)一步降低生產(chǎn)成本。通過(guò)自研芯片,這些大廠能夠掌握更多的議價(jià)權(quán)和定價(jià)權(quán),避免成為英特爾、英偉達(dá)等傳統(tǒng)芯片商的“打工仔”。這不僅有助于提升利潤(rùn)空間,還能夠在價(jià)格競(jìng)爭(zhēng)中保持靈活性,根據(jù)市場(chǎng)情況調(diào)整定價(jià)策略。
自研芯片還可以幫助這些大廠完善軟硬件生態(tài)系統(tǒng),它們能夠根據(jù)自家的業(yè)務(wù)需求和特點(diǎn)定制芯片,從而實(shí)現(xiàn)硬件與軟件之間的無(wú)縫對(duì)接和優(yōu)化。自研芯片還可以保持技術(shù)創(chuàng)新,隨著云計(jì)算、大數(shù)據(jù)、人工智能的快速發(fā)展,數(shù)據(jù)中心面臨的工作負(fù)載越來(lái)越多樣化,自研芯片使這些大廠能夠快速響應(yīng)市場(chǎng)變化,及時(shí)推出符合新需求的產(chǎn)品和服務(wù)。
?04、自研AI服務(wù)器芯片的難度有多大?
AI服務(wù)器芯片屬于超大規(guī)模集成電路,除了需要大量資金投入,其設(shè)計(jì)和制造的難度都很大,需要能夠精準(zhǔn)把握技術(shù)路線選擇,另外,在團(tuán)隊(duì)建設(shè),以及與晶圓代工廠合作方面,需要具備業(yè)界頂級(jí)水平,才能把芯片做好。
AI服務(wù)器需要訓(xùn)練和推理兩類(lèi)處理器和系統(tǒng),如何規(guī)劃技術(shù)發(fā)展路線是關(guān)鍵,也就是說(shuō),是發(fā)展訓(xùn)練,還是推理,或是兼而有之,是不同的技術(shù)路線,這要考慮到市場(chǎng)現(xiàn)狀及未來(lái)的發(fā)展情況。
訓(xùn)練芯片主要用于AI算法訓(xùn)練,即在云端將一系列經(jīng)過(guò)標(biāo)記的數(shù)據(jù)輸入算法模型進(jìn)行計(jì)算,不斷調(diào)整、優(yōu)化算法參數(shù),直至算法識(shí)別準(zhǔn)確率達(dá)到較高水平。
推理芯片主要用于AI算法推理,將在云端訓(xùn)練好的算法模型進(jìn)行裁剪、優(yōu)化變“輕”之后,進(jìn)入應(yīng)用階段,輸入數(shù)據(jù)直接得出識(shí)別結(jié)果。
不同用途(訓(xùn)練和推理)、不同應(yīng)用場(chǎng)景(端-邊-云)對(duì)AI芯片有著不同的要求。訓(xùn)練芯片追求的是高性能(高吞吐率)、低功耗,推理芯片追求的是低延時(shí)(完成推理過(guò)程所需要的時(shí)間盡可能短)、低功耗?!岸?邊-云”這3個(gè)環(huán)節(jié)對(duì)AI芯片的要求也不同,在端和邊上進(jìn)行的大部分是AI推理,大部分的訓(xùn)練是在云和數(shù)據(jù)中心進(jìn)行的,訓(xùn)練過(guò)程對(duì)時(shí)延沒(méi)有什么要求,需要保證AI芯片在盡可能保證較高算力的情況下,功耗盡量低。
目前,英偉達(dá)GPU主導(dǎo)的AI訓(xùn)練市場(chǎng)最為火熱,然而,隨著AI應(yīng)用的深入展開(kāi),巨大的推理芯片市場(chǎng)會(huì)逐漸展現(xiàn)出來(lái),該市場(chǎng)比我們目前看到的要大得多,沒(méi)有任何一家廠商的芯片能夠滿足這個(gè)市場(chǎng)需求。這就是前文提到的亞馬遜、谷歌、微軟,甚至英偉達(dá)自研CPU的原因所在。
有統(tǒng)計(jì)顯示,AI芯片市場(chǎng)包括約15%的訓(xùn)練,45%的數(shù)據(jù)中心推理和40%的邊緣推理。在這樣的行業(yè)背景下,大廠自研芯片,必須找準(zhǔn)方向,權(quán)衡好中短期和中長(zhǎng)期應(yīng)用需求,分配好訓(xùn)練芯片和推理芯片的研發(fā)投入。芯片研發(fā)團(tuán)隊(duì)建設(shè)也很重要。
技術(shù)團(tuán)隊(duì)搭建,是一個(gè)長(zhǎng)期積累的過(guò)程,需要時(shí)間,難度不小,因此,多家互聯(lián)網(wǎng)大廠對(duì)芯片設(shè)計(jì)外包服務(wù)的依賴度較高,這恐怕只能解決短期、少量需求問(wèn)題,長(zhǎng)期來(lái)看,還需要技術(shù)積累和芯片團(tuán)隊(duì)建設(shè)。
下面看一下自研芯片大廠與晶圓代工廠的合作關(guān)系。
AI服務(wù)器芯片采用的都是最先進(jìn)制程工藝,這方面,考慮到三星電子的先進(jìn)制程(4nm和3nm)良率遲遲提升不上去,臺(tái)積電幾乎是唯一的晶圓代工廠選擇。根據(jù)專(zhuān)門(mén)研究半導(dǎo)體公司的金融分析師Dan Nystedt的估計(jì),2023年,蘋(píng)果公司占臺(tái)積電收入的25%(175.2億美元)。2023年,臺(tái)積電的前10名客戶占其收入的91%,高于2022年的82%,這些公司包括聯(lián)發(fā)科、AMD、高通、博通、索尼和Marvell??梢钥闯觯瑳](méi)有一家互聯(lián)網(wǎng)大廠,除了蘋(píng)果,都是IC設(shè)計(jì)大廠。
多年來(lái),蘋(píng)果一直是臺(tái)積電的頭號(hào)客戶,而且,在未來(lái)多年內(nèi)將一直是臺(tái)積電的第一大客戶。據(jù)悉,蘋(píng)果自研的AI服務(wù)器芯片將采用臺(tái)積電的3nm制程工藝,將在2025下半年生產(chǎn),那時(shí),臺(tái)積電的3nm制程將升級(jí)到“N3E”版本。
對(duì)于互聯(lián)網(wǎng)和IT設(shè)備大廠來(lái)說(shuō),自研的AI服務(wù)器芯片,必須找到足夠好的晶圓代工廠生產(chǎn),要想保持長(zhǎng)期、穩(wěn)定發(fā)展,就必須對(duì)晶圓代工廠的制程工藝有足夠的了解。這方面,與谷歌、亞馬遜和微軟相比,蘋(píng)果具有先天優(yōu)勢(shì),因?yàn)樵撝悄茉O(shè)備巨頭是臺(tái)積電多年的第一大客戶,雙方有深入了解,能夠更好地把握好芯片生產(chǎn)規(guī)模、良率、成本,可以實(shí)現(xiàn)無(wú)縫過(guò)渡。
?05、芯片設(shè)計(jì)服務(wù)商機(jī)無(wú)限
如前文所述,互聯(lián)網(wǎng)大廠自研AI服務(wù)器芯片,由于研發(fā)難度很大,這些大廠短時(shí)間內(nèi)又難以形成有足夠技術(shù)和經(jīng)驗(yàn)積累的團(tuán)隊(duì),因此,選擇外包,找芯片設(shè)計(jì)服務(wù)合作伙伴就成為了不二選擇。例如,谷歌開(kāi)發(fā)的兩種Arm服務(wù)器CPU,其中一款代號(hào)為“Maple”,是基于Marvell的技術(shù)。
另外,谷歌自研的TPU用于取代英偉達(dá)的GPU,谷歌設(shè)計(jì)的芯片藍(lán)圖,都由博通進(jìn)行物理實(shí)現(xiàn)。物理實(shí)現(xiàn)是將邏輯電路轉(zhuǎn)換為有物理連接的電路圖的過(guò)程,博通繪制好物理版圖后,再送到臺(tái)積電流片,流片成功后的芯片正式進(jìn)入制造環(huán)節(jié),整個(gè)過(guò)程都需要博通深度參與。數(shù)據(jù)中心中成百上千個(gè)高性能處理器共同運(yùn)作,它們之間的通信就成為了大問(wèn)題,這也是當(dāng)下數(shù)據(jù)中心性能損耗的主要來(lái)源。
博通是通信巨頭,最善于解決通信帶寬問(wèn)題,在全球50GB/s的SerDes市場(chǎng)中,博通占據(jù)了76%的份額,其SerDes接口通過(guò)將低速并行數(shù)據(jù)轉(zhuǎn)換為高速串行數(shù)據(jù),然后在接收端轉(zhuǎn)換回并行數(shù)據(jù)。通過(guò)這樣的操作,數(shù)據(jù)可以從一個(gè)TPU高速轉(zhuǎn)移到另一個(gè)TPU,大大提升了傳輸效率。有了博通的幫助,谷歌自研芯片的項(xiàng)目進(jìn)展速度明顯加快了,TPU從設(shè)計(jì)開(kāi)始,僅用15個(gè)月就部署進(jìn)了數(shù)據(jù)中心。
隨著大模型市場(chǎng)競(jìng)爭(zhēng)快速展開(kāi),谷歌大幅增加了TPU設(shè)計(jì)服務(wù)訂單,使博通一躍成為僅次于英偉達(dá)的AI芯片廠商,Semianalysis預(yù)估,AI芯片會(huì)在2024年給博通帶來(lái)80億~90億美金的營(yíng)收。
不止谷歌,Meta、亞馬遜、微軟等大廠都在加大自研AI服務(wù)器芯片的投入力度,找芯片設(shè)計(jì)服務(wù)外包合作伙伴的需求只增不減,此時(shí),以博通、Marvell為代表的芯片設(shè)計(jì)服務(wù)公司的商機(jī)會(huì)越來(lái)越多。