11月16日凌晨,微軟發(fā)布了兩款自研芯片:AI加速芯片Maia 100和CPU芯片Azure Cobalt 100。
互聯(lián)網(wǎng)公司自研芯片,已經(jīng)不是什么新鮮事。之前蘋果、亞馬遜、谷歌、華為、阿里等公司就已經(jīng)這么做了,微軟已經(jīng)算是晚的了。
(說明一下,這里的互聯(lián)網(wǎng)公司指的是互聯(lián)網(wǎng)底層技術(shù)的公司,也即云計算公司,或者支撐互聯(lián)網(wǎng)公司業(yè)務(wù)的底層技術(shù)部門。)
今天這篇文章,我們仔細分析一下,在主流大客戶紛紛自研芯片的當下,獨立的芯片公司未來該如何更好地發(fā)展?
1 算力芯片面臨的技術(shù)挑戰(zhàn)
關(guān)于算力芯片面臨的挑戰(zhàn),之前就詳細介紹過,這里不展開了。簡單總結(jié)如下:
算力需求數(shù)量級提升。例如,AI算力每2個月翻一倍。典型的大算力場景:AI大模型、高階自動駕駛、元宇宙等。
性能和靈活性難以兼顧。CPU靈活但性能不夠,ASIC性能極致但靈活性不夠。越復(fù)雜的系統(tǒng),對通用靈活性的追求越高于對性能的追求。
業(yè)務(wù)的橫向和縱向差異性。橫向差異,指的是不同客戶的業(yè)務(wù)差異;縱向差異,指的是單個客戶的業(yè)務(wù)迭代差異。如果針對場景定制芯片會導(dǎo)致架構(gòu)碎片化,并且芯片的迭代完全跟不上軟件的迭代節(jié)奏。
大芯片研發(fā)成本越來越高。數(shù)以億計,甚至十億計,的研發(fā)成本,需要芯片的大規(guī)模落地來攤薄。
芯片大規(guī)模落地困境。宏觀算力需要規(guī)模化的計算集群,高昂的研發(fā)成本需要規(guī)模化來攤薄研發(fā)成本。但各種性能優(yōu)化的專用定制方案通用性低,覆蓋場景少,難以實現(xiàn)大規(guī)模部署。
生態(tài)建設(shè)的門檻。大芯片需要框架和生態(tài),門檻高且需要長期積累,小公司難以長期大量投入。即使構(gòu)建了芯片生態(tài),但生態(tài)私有,如何獲得客戶的廣泛認可,也是非常大的挑戰(zhàn)。
從客戶視角看,不對特定廠家的硬件平臺產(chǎn)生依賴。需要開放標準化的硬件和系統(tǒng)堆棧。
從客戶視角看,存在宏觀計算平臺融合的挑戰(zhàn)。云網(wǎng)邊端融合,軟件可以跨大范圍的硬件遷移;需要不同廠家硬件的開放標準化,構(gòu)建統(tǒng)一的硬件平臺和系統(tǒng)堆棧。
2 互聯(lián)網(wǎng)公司自研芯片分析
云計算進入下半段,行業(yè)從粗獷式發(fā)展向精細化發(fā)展轉(zhuǎn)型。需要深入到底層的軟硬件,通過深層次的技術(shù)創(chuàng)新來驅(qū)動云計算變革。
傳統(tǒng)的芯片公司,雖然有一些先進的底層技術(shù),但距離客戶場景較遠。閉門造車,技術(shù)難以轉(zhuǎn)換成“給客戶帶來更大價值”的產(chǎn)品;反而在一些方面,約束了客戶的價值創(chuàng)新。
這使得互聯(lián)網(wǎng)公司不得不“自己動手,豐衣足食”。
互聯(lián)網(wǎng)公司做芯片,具有如下一些優(yōu)勢:
首先,是距離最終客戶近。更能把握客戶的需求,更貼近客戶的場景。
其次,是互聯(lián)網(wǎng)公司做的事情更宏觀更系統(tǒng)。云計算、人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)、元宇宙等熱點方向,都是互聯(lián)網(wǎng)公司主導(dǎo)的技術(shù)發(fā)展潮流,互聯(lián)網(wǎng)公司站在宏觀層次,更能深刻體會到自身對底層軟硬件的各種“特殊”要求。
最后,則是資源優(yōu)勢?;ヂ?lián)網(wǎng)公司具有資源整合的優(yōu)勢,并且在整合客戶需求、市場開發(fā)方面遠比芯片公司有優(yōu)勢。
互聯(lián)網(wǎng)公司做芯片的劣勢,體現(xiàn)在:
首先,是技術(shù)積累不足。互聯(lián)網(wǎng)公司自研芯片還在早期階段,很多方面的優(yōu)化還比較淺層;要想深入到技術(shù)底層,全面而系統(tǒng)地重構(gòu)整個數(shù)據(jù)中心技術(shù)棧,挑戰(zhàn)巨大。
其次,芯片不是互聯(lián)網(wǎng)公司的主業(yè)。一旦遇到“風(fēng)吹草動”,很可能最先被砍掉的就是芯片這種“只出不進”的部門?;蛘哒f,互聯(lián)網(wǎng)公司對芯片難以長期堅守,難以積累芯片方面的核心競爭力。
再次,規(guī)模劣勢。雖然互聯(lián)網(wǎng)巨頭每年的芯片消耗量非常大,但畢竟是單個客戶。大芯片整個鏈條資金消耗量巨大,需要更多客戶的更大的銷售量來攤薄成本。單個客戶的芯片消耗量,仍不足以讓算力芯片進入高質(zhì)量良性發(fā)展狀態(tài)。
最后,供應(yīng)商綁定風(fēng)險。自研芯片供給自己,幾乎是絕對的供應(yīng)商綁定。自成一套體系的技術(shù)演進,會約束自身技術(shù)的發(fā)展。如果出現(xiàn)技術(shù)選型偏差,或芯片質(zhì)量問題,會拖累上層業(yè)務(wù),引起連鎖問題。
術(shù)業(yè)有專攻,喝牛奶一定要自己養(yǎng)牛嗎?
3 互聯(lián)網(wǎng)公司的本質(zhì)訴求
前面我們就分析過:互聯(lián)網(wǎng)公司本質(zhì)上并不是想大包大攬,“吃獨食”;反而是芯片公司的產(chǎn)品無法滿足這些客戶的需要,逼迫著客戶不得不自研。
這里,我們對互聯(lián)網(wǎng)公司自研芯片的本質(zhì)訴求進行分析,希望獨立芯片公司能夠重視這些訴求,做出讓客戶真正滿意的產(chǎn)品。
這里簡單分析一下互聯(lián)網(wǎng)公司的一些,隱藏在許多表面訴求背后的,更加真實的本質(zhì)訴求(拋磚引玉):
首先,最核心的必然是更高的性能/成本比。性價比是永恒的話題,都希望最低廉的成本下提供最高的性能價值。
其次是,差異化?;ヂ?lián)網(wǎng)公司需要有足夠理想的硬件平臺,支撐差異化的功能和價值,給到自己的客戶。
再次,硬件可迭代。軟件迭代很快,為了增加硬件設(shè)備的生命周期(也是一種降成本的手段),則需要硬件能夠支持軟件服務(wù)的長期迭代。
再再次,快速業(yè)務(wù)創(chuàng)新?;ヂ?lián)網(wǎng)公司自己的產(chǎn)品和服務(wù)是自身的核心競爭力,互聯(lián)網(wǎng)公司需要的是能夠自己“掌控一切”的開發(fā)平臺,來實現(xiàn)業(yè)務(wù)創(chuàng)新,來增強自身的核心競爭力。
最后則是,無平臺依賴。平臺依賴某種程度上是一種“壟斷”?;ヂ?lián)網(wǎng)公司,通常也是“巨頭”,有非常大的產(chǎn)業(yè)鏈“話語權(quán)”,肯定不希望被綁定在某個特定的平臺上。這樣不僅會降低自己的“話語權(quán)”,還存在巨大的技術(shù)風(fēng)險。
這里我們假設(shè)一個理想情況:如果存在通用的芯片方案,能夠滿足上述這些需求,客戶不會產(chǎn)生平臺依賴,不對客戶自身業(yè)務(wù)的核心競爭力構(gòu)成威脅,并且功能更加強大,性能更加強勁,價格更具有顯著優(yōu)勢。
那么請問,互聯(lián)網(wǎng)公司還需要芯片自研嗎?
或者更直白的說,互聯(lián)網(wǎng)公司,愿意吃力不討好,通過自研芯片增加自己的成本、降低自己的競爭力嗎?
反過來說,芯片公司需要更多的本質(zhì)創(chuàng)新。
4 芯片研發(fā)模式分析
芯片研發(fā)通常有三種模式:
模式一,傳統(tǒng)模式,硬件定義軟件:
問題一,芯片公司私有的架構(gòu)和平臺,構(gòu)建生態(tài)門檻很高,客戶存在平臺依賴。
問題二,定制的解決方案,難以覆蓋所有客戶的要求。
問題三,客戶需要修改自身的業(yè)務(wù)邏輯,遷移的成本和風(fēng)險很高。
硬件定義軟件,是架構(gòu)孤島、生態(tài)孤島、算力孤島;并且因為供應(yīng)商依賴的原因,對客戶不友好。
模式二,客戶友好模式,軟件定義硬件:
芯片公司提供設(shè)計服務(wù),為客戶定制??蛻糇匝幸矊儆诳蛻舳ㄖ频姆懂牐驗閮?nèi)部客戶也是客戶。
優(yōu)勢在于:能夠拿到詳細的客戶需求,了解場景痛點;還有就是早期種子客戶的支持,是產(chǎn)品成功的關(guān)鍵。
問題一,客戶的需求,不一定是“真正”的需求,真正的需求需要自己深度洞察。
問題二,需求的橫向和縱向差異問題并未解決。首先,即使大客戶內(nèi)部,不同的團隊之間的需求也存在較大差異;其次,需求的快速迭代如何滿足?
模式三:開放模式,軟硬件相互定義。開放標準的平臺架構(gòu)/接口:
通過通用標準化的平臺,實現(xiàn)業(yè)務(wù)和平臺解耦。
通用的設(shè)計,實現(xiàn)客戶軟件定義一切,平臺硬件加速一切。
通過本質(zhì)的系統(tǒng)架構(gòu)創(chuàng)新,實現(xiàn):數(shù)量級性能提升;覆蓋更多場景及迭代;不改變業(yè)務(wù)邏輯,實現(xiàn)業(yè)務(wù)平滑遷移;兼容已有生態(tài);沒有平臺依賴;學(xué)習(xí)和使用的低門檻。
哪種模式更好?仁者見仁,智者見智。
5 芯片公司需要進化成互聯(lián)網(wǎng)公司
量變會引起質(zhì)變。
但與此同時,很難發(fā)現(xiàn)質(zhì)變從何時開始,很難把握質(zhì)變發(fā)展的整個過程。
芯片公司的組織和研發(fā)模式,在逐漸地進入新的質(zhì)變,如表格所示:
小規(guī)模芯片階段。最重要的是芯片的研發(fā)。這一時期,芯片公司就是純粹的芯片公司,通常硬件和軟件開發(fā)人員比例在1:1左右。
大規(guī)模芯片階段。量變引起了質(zhì)變,各類處理器芯片越做越大,則進入軟件型芯片公司的時代。2008年,黃仁勛率先喊出NVIDIA是一家軟件公司。然后把更多的資源給了CUDA框架,而不是GPU芯片。所以才成就了現(xiàn)在NVIDIA的偉大。這一時期,硬件和軟件人員的比例在1:5左右。
超大規(guī)模芯片階段?,F(xiàn)在的發(fā)展趨勢,單機計算越來越少,分布式集群計算成為主流,甚至走向跨集群計算。芯片很重要,開發(fā)框架更重要。但即使開發(fā)框架重要,也僅僅解決的是單機計算的問題,要想解決集群/跨集群計算的問題,計算平臺解決方案則更更重要。我們認為,這一時期的芯片公司,需要做到比客戶更懂客戶,將成為典型的互聯(lián)網(wǎng)型的芯片公司,其硬件軟件人員比例將達到1:10左右。
計算規(guī)模的量變,需要架構(gòu)創(chuàng)新的質(zhì)變:
只懂軟件,難以駕馭復(fù)雜的芯片設(shè)計,無法深入,難以整合;
只懂硬件,堆疊的性能再好,客戶難以駕馭,場景覆蓋小,生命周期短,芯片無法大規(guī)模落地,成本高昂,風(fēng)險極高;
唯有軟硬件深度融合,比客戶更懂客戶,才是正確的發(fā)展道路。
6 更深層次的開放合作
行業(yè)和技術(shù)都在巨變:云計算、邊緣計算出現(xiàn)后,系統(tǒng)的規(guī)模數(shù)量級膨脹。也因此,互聯(lián)網(wǎng)公司的業(yè)務(wù)場景非常復(fù)雜,具有很多超出個體硬件的高級特征。能深刻理解這些系統(tǒng)需求的莫過于互聯(lián)網(wǎng)公司,而芯片公司對系統(tǒng)的把握,有些不足。
雖然如此,但這個視角仍然是局部的、相對微觀的。
人類發(fā)展,從“男耕女織”到“手工作坊”,再到流水線的“工業(yè)化大生產(chǎn)”,再到現(xiàn)在的“全球化大分工”。從更宏觀、更長期以及發(fā)展的視角看,全球產(chǎn)業(yè)是國際化大分工的,每個地區(qū)每個公司每個人,都在做自己最擅長的事情。
(企業(yè)的能力邊界:一個公司之所以只做自己擅長的事情,不是不愿意拓展到其他相關(guān)甚至不相關(guān)的領(lǐng)域,而是能力有邊界,“鞭長莫及”。)
隨著時間推移,很多技術(shù)會沉淀,云計算底層技術(shù)也不例外。
開放合作,更加科學(xué)精細的分工,才能構(gòu)建健康而宏大的行業(yè)生態(tài)。
底層的芯片公司,也需要不斷地自我革新,才能真正幫助客戶,成就客戶,同時也成就自己。