加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 中國首個云端大規(guī)模應(yīng)用的自研CPU
    • 一個時代有一個時代的造芯模式
    • 如何評價「平頭哥模式」?
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

平頭哥造芯模式,正式跑通!

2022/11/07
2177
閱讀需 18 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

李根 魚羊 假裝發(fā)自 西溪
量子位 | 公眾號 QbitAI

“生死看淡,不服就干”,平頭哥造芯模式,正式跑通。

2022云棲大會現(xiàn)場,新進展再次由阿里云智能總裁張建鋒對外宣布。

倚天710已大規(guī)模應(yīng)用,成為中國首個云上大規(guī)模應(yīng)用的自研CPU。

在核心應(yīng)用場景中,算力性價比提升30%以上,單位算力功耗(耗電量)降低60%以上。

張建鋒還宣布,倚天710的部署規(guī)模還會進一步擴大,未來兩年20%的新增算力都將使用自研CPU。

更直白翻譯,就是以后阿里云的芯片部署中,每10顆CPU芯片里就有2顆自研CPU。

這個進展和應(yīng)用,為何重要?

首先,大規(guī)模部署代表著芯片產(chǎn)品獲得了市場檢驗,也意味著最難的生態(tài)一環(huán)達成閉環(huán)——雖然不如新硬件來的“刺激”,但意義和價值卻絲毫不遜于新品發(fā)布,甚至長遠來看,量級簡直不能相提并論。

其次,倚天710,作為一款基于Arm架構(gòu)的云端CPU,想要在x86占主導(dǎo)地位的全球云計算服務(wù)器芯片生態(tài)中立足,更是難上加難,目標(biāo)十中有二更是Arm架構(gòu)在云端里程碑式的新突破。

最后,倚天710的大規(guī)模部署,不僅是中國首個自研CPU的應(yīng)用紀(jì)錄,還意味著誕生在造芯浪潮中的平頭哥模式干出來了!

縱觀半導(dǎo)體半個世紀(jì)的發(fā)展史,檢驗造芯模式的核心關(guān)鍵一以貫之:

  • 造出來(設(shè)計和流片
  • 用得上(需求和性能)
  • 用得好(功耗和成本)
  • 離不開(工具和生態(tài))

而在倚天710的進展中,這四大流程關(guān)鍵,平頭哥都(一口氣)完成了實踐證明。

唯一待解之謎,只剩下造芯模式的通關(guān)速度——

傳統(tǒng)IT時代的造芯公司和通用芯片,短則5~7年,長則可能10年……

而平頭哥的倚天710,僅僅用了2年。

所以這種模式和速度背后,根本原因是什么?

是半導(dǎo)體領(lǐng)域也面臨世紀(jì)變革?

抑或一個時代果真有一個時代的造芯模式?

中國首個云端大規(guī)模應(yīng)用的自研CPU

倚天710,2021年云棲大會發(fā)布,是平頭哥造芯以來交出的首款通用型CPU。

單芯片600億晶體管、128核、主頻3.2GHz……首戰(zhàn)跑分就超出業(yè)內(nèi)標(biāo)桿20%,能效比提升50%以上。

主要用于云計算場景,基于Arm v9架構(gòu),首發(fā)即刷新了Arm服務(wù)器芯片性能紀(jì)錄。

作為通用芯片,需要囊括接收、處理、運算服務(wù)器計算機內(nèi)部所有信息,是業(yè)內(nèi)公認(rèn)的設(shè)計難度最高的芯片之一。

但芯片之難,最根本還不在于設(shè)計和制造,更關(guān)鍵的是落地和應(yīng)用:能夠真正讓更多人用得上、用得好,以強大的生態(tài)拱衛(wèi)壘砌起護城河。

于是一年之后,平頭哥交出重要答卷。

阿里云方面稱,經(jīng)過一年業(yè)務(wù)驗證,倚天710已規(guī)模部署并對外提供服務(wù)。

具體到應(yīng)用場景中,在數(shù)據(jù)庫、大數(shù)據(jù)、視頻編解碼、AI推理等核心場景中的性價比提升30%以上,單位算力功耗(耗電量)降低60%以上。

這種應(yīng)用實例,有阿里內(nèi)部的新業(yè)務(wù),也有外部客戶:比如研究機構(gòu),智能手機企業(yè),還有知名互聯(lián)網(wǎng)公司。

主打數(shù)據(jù)智能SaaS工具生態(tài)的匯量科技就表示,在廣告推理中使用倚天710實例后,不僅有效提升了CPU處理能力和網(wǎng)絡(luò)帶寬,成本對比傳統(tǒng)實例也降低15-20%,綜合性價比提升40%以上。

而阿里集團內(nèi)部,倚天710則開始支持最核心的電商業(yè)務(wù),并且成功在雙11等峰值流量大考中,經(jīng)受住了實戰(zhàn)檢驗。

這種應(yīng)用和反饋,意外嗎?不算意外。

畢竟性能和參數(shù),從設(shè)計和成功流片之后,就決定了跑分成績。

但一款A(yù)rm云端CPU能夠快速應(yīng)用于不同場景和服務(wù),適配不同領(lǐng)域的軟件和應(yīng)用,純靠硬件之力,辦不到。

阿里云方面解釋,這背后離不開倚天710、飛天操作系統(tǒng)和CIPU融合,首次實現(xiàn)了芯片、計算架構(gòu)及操作系統(tǒng)的協(xié)同優(yōu)化。

而且從造芯啟動開始,算法、軟件和生態(tài)工具的相關(guān)工作也早已啟動,作用到倚天710大規(guī)模部署中,實現(xiàn)了全應(yīng)用生態(tài)的適配,甚至0代碼修改即可完成主流業(yè)務(wù)遷移。

所以對于平頭哥造芯,軟件定義硬件、需求定義供給,都是已經(jīng)驗證過的定理。但全局思維下的以終為始,把生態(tài)和應(yīng)用納入到造芯流程中,卻是新角度、新方法。

這是對傳統(tǒng)芯片研發(fā)模式的根本性變革,也暗含云原生映射的時代趨勢,更能解釋平頭哥造芯的模式和速度。

倚天710的成功、平頭哥模式的跑通,是云計算定義硬件的成功,是云計算重塑芯片甚至整個IT硬件體系的證明。

更代表著——IT時代全新的造芯模式開啟。

一個時代有一個時代的造芯模式

阿里入局造芯,平頭哥不服就干。

氣勢、速度和交貨,三位一體。

2018年9月,整合中天微和達摩院成立旗下芯片公司后,平頭哥半導(dǎo)體正式推出,放話“生死看淡”。

僅僅1年,首款處理器產(chǎn)品玄鐵910對外發(fā)布,創(chuàng)造RISC-V開源陣營里的最快紀(jì)錄。

又過1年,還在云棲大會,首款A(yù)I專用芯片含光800,一劍霜寒十四州,首發(fā)特定場景性能就40倍于同領(lǐng)域標(biāo)桿英偉達P4。

到了2021年,依然是云棲,倚天710以阿里首款為云而生的通用CPU震動業(yè)內(nèi),性能跑分領(lǐng)先,能效比更是領(lǐng)跑……

加上今年披露的落地部署和應(yīng)用進展,用產(chǎn)品回應(yīng)質(zhì)疑,用進展證明模式和實力。

整個進程中,平頭哥造芯模式的速度秘訣,也在摸象中逐步清晰。核心歸結(jié)起來其實就3點。

第一,造得快,因為需求清晰。

傳統(tǒng)半導(dǎo)體廠商造芯,先調(diào)研客戶、再收集需求、接著內(nèi)部收斂聚焦,然后才能進入定義和芯片設(shè)計……過程中免不了技術(shù)、產(chǎn)品和工程的拉鋸平衡,于是造芯周期光在前期規(guī)劃就會無限拉長。

平頭哥之所以不同,是因為阿里云在客戶服務(wù)、需求和算力產(chǎn)品定義上,積累已非一日,設(shè)計規(guī)劃周期,可以大大縮短。

第二,造得好,源自任務(wù)明確。

一方面,通過需求定義供給。什么樣的任務(wù),需要芯片提供什么樣的能力……傳統(tǒng)造芯,先把性能按照天花板設(shè)計,再在部署應(yīng)用中想辦法適配和榨干,芯片之于應(yīng)用是參考答案。而需求定義供給,則可以抓住主要任務(wù)和矛盾,芯片即解答。

另一方面,軟件定義硬件。芯片作為計算任務(wù)的解法集成,以前是先有硬件再配算法,但從AI為主的專用需求開始,最高效的解法早已變成了軟硬一體化方案,甚至為了算法和軟件去定制芯片硬件。

這種源頭起點上的變革,芯片的性能、功耗、應(yīng)用落地,自然不會差。

第三,用得上且用得好,因為落地場景清晰。

平頭哥造芯,從一開始就與阿里云緊密協(xié)同,阿里云是集團同事、客戶、也是落地場景,在阿里生態(tài)內(nèi),就能完成芯片的全流程。

芯片的流程,之前最受關(guān)注的是設(shè)計和流片,但這其實只是開始。

流片之后需要壓測,驗證穩(wěn)定性,然后小批量交付客戶開發(fā)利用反饋,進行功能性測試,如果有問題還得重新設(shè)計、改版,再走一遍周期,這也是為什么一款芯片在流片成功之后,依然需要一年半載才能驗證應(yīng)用價值的內(nèi)在原因。

但平頭哥不同,在阿里集團內(nèi)部,在阿里云的體系協(xié)同下,各種壓測、場景和應(yīng)用反饋,基本是完整全鏈路的。

比如倚天710,去年8月點亮成功,云棲大會官宣發(fā)布,緊接著雙11就開啟了峰值極限下的穩(wěn)定性壓測……以往傳統(tǒng)芯片公司用時一年半載才能完成的流程,阿里幾個月就走完了,一款芯片的成熟周期,被大大縮短。

所以平頭哥造芯,自然是攻堅科技產(chǎn)業(yè)中最基礎(chǔ)又最關(guān)鍵的一環(huán),但從一開始就并非為造而造,或者因為熱潮而出發(fā)。

平頭哥半導(dǎo)體的價值,或許要放在整個阿里的算力攻堅進程中,才能透過局部看整體,透過現(xiàn)象看清本質(zhì)。

阿里云的發(fā)展史,關(guān)于開創(chuàng)者們的往事記述很多,而且傳奇性和喜劇感十足,早已深入人心。

但從算力技術(shù)主線和維度,可以倒推歸結(jié)為4個階段。

第一個階段,用分布式技術(shù)解決算力瓶頸。

在全球互聯(lián)網(wǎng)流量大爆發(fā)之前,企業(yè)算力的核心載體是小型機,通過線下自建或租用服務(wù)器的方式解決算力問題,但對于身處消費互聯(lián)網(wǎng)方向上的企業(yè)而言,這種模式顯然越來越難以為繼。

阿里的算力攻堅,以及阿里云計算的肇始,就是基于這樣的背景。

2007年,為了應(yīng)對指數(shù)級擴張的淘寶流量,阿里開始從業(yè)務(wù)底層的IOE(IBM小型機、Oracle數(shù)據(jù)庫、EMC存儲)尋求根本性解法,即后來的基于云計算搭建全新技術(shù)架構(gòu),打破“擴大采購規(guī)模”的線性局限。

其后進一步為這套底層技術(shù)和上層業(yè)務(wù)開發(fā)操作系統(tǒng),在2009年正式啟動了飛天,阿里云也由此正式成立,沒想到日后會成為中國企業(yè)自研云計算的開端。

飛天云操作系統(tǒng)的本質(zhì),是要用分布式架構(gòu)替換中心化架構(gòu),可以讓全世界服務(wù)器實現(xiàn)連接,既能快速應(yīng)對突增的流量,還能讓計算資源真正像水電一樣即需即用。

所以“分布式架構(gòu)”和發(fā)展方向,就是算力攻堅的核心第一仗,后面集群挑戰(zhàn)、故障運維、并發(fā)應(yīng)對……都是正確方向之下的升級打怪。

結(jié)果則人人都感知到了。雙11購物不再卡頓,12306春運購票也逐漸不再被吐槽……這都是阿里在分布式計算思想下開花結(jié)果的功勞。

第二階段,從云計算需求和痛點,反向定義新硬件。

云計算的好處,一用即知,但虛擬化損耗的問題卻一度成為頑疾。

所謂虛擬化損耗,就是云端調(diào)用線下服務(wù)器的進程,本身就會吸走機器性能,造成算力浪費。

業(yè)內(nèi)面對這一頑疾,往往采用更低成本的軟件優(yōu)化方法,但顯然治標(biāo)不治本,只能優(yōu)化,不能根治。

阿里云的方法是后來的神龍架構(gòu),打造了一個專用硬件來負(fù)責(zé)芯片不擅長的虛擬化調(diào)度工作,用軟硬件一體的思路真正做到了0損耗。

這讓阿里云一下子坐穩(wěn)了份額第一的位置,也帶來了更重要的開始:算力攻堅要向底層硬件、甚至芯片尋求解法。

軟硬一體化,軟件定義硬件,或者說云計算定義新硬件的趨勢……在阿里云,以2017年9月第一代神龍架構(gòu)推出作為標(biāo)志性節(jié)點。

第三階段,造芯,重塑整個IT硬件體系。

也就是當(dāng)前所處的階段,以2017年達摩院成立,求解前沿芯片技術(shù)和2018年平頭哥半導(dǎo)體推出為標(biāo)志性事件,阿里云真正從“軟”到“硬”,從云端向下定義芯片。

當(dāng)然這種求解,有宏觀社會責(zé)任擔(dān)當(dāng)?shù)脑?,但在阿里云發(fā)展方向里,趨勢也早已再明顯不過。

一方面是去IOE體系之下的硬件進一步變革需求。另一方面,作為云計算服務(wù)提供商,不碰芯片,不碰硬件,其實就無法真正做到性能、成本和體驗的最優(yōu)解。

于是可以看到,除了自研芯片,阿里云還在服務(wù)器、交換機等硬件方面做了系統(tǒng)性革新,以芯片為起點,幾乎重塑了整個IT硬件體系。

上一階段的神龍架構(gòu)計算平臺,也在不斷升級,成為新物種:CIPU——向下可以對數(shù)據(jù)中心的計算、存儲和網(wǎng)絡(luò)資源快速云化并進行硬件加速,向上接入操作系統(tǒng)。

所以這就是終點了嗎?

從阿里云已經(jīng)交貨部署的成果來看,可以算是階段性終點了。

但如果放在算力攻堅的終局審視,或許還有兩個更宏大的時代級問題:

一是新型計算架構(gòu)。整個產(chǎn)業(yè)都到了突破傳統(tǒng)馮·諾依曼架構(gòu)存儲計算分離的性能瓶頸的關(guān)口,存算一體的新型大一統(tǒng)計算體系架構(gòu),被越來越多提及。

二是新型顛覆式計算形態(tài),比如量子計算。

有意思的是,這兩大時代級問題,任何一個對于當(dāng)前算力格局的影響,可能都會是核彈級的。

總的說來,只有如此全局式透視,以終點看起點和過程,才能更本質(zhì)地看清阿里造芯、平頭哥模式的歸、去、來。

這背后是一家公司對于科技需求和科技發(fā)展挑戰(zhàn)的逢山開路,但同樣也是時代趨勢的具體映射和展現(xiàn)。

或許不用再贅述和論證了。

一個時代有一個時代的算力需求和挑戰(zhàn),于是一個時代也就有一個時代的算力解決方案,進而一個時代就會有一個時代的造芯模式。

平頭哥模式,就是代表算力發(fā)展方向的代表性模式。

如何評價「平頭哥模式」?

最后,芯片全流程work,整個模式跑通,也意味著平頭哥出發(fā)時被寄予的期望和質(zhì)疑,都到了可以重新評估的時候。

阿里造芯以來,噱頭、熱點和形象工程之說,從未停止。

但隨著倚天710年度性交卷,成為中國首個云上大規(guī)模應(yīng)用的自研CPU,此論可休矣。

而且倚天710創(chuàng)造的紀(jì)錄、展現(xiàn)的效用、開啟的范式,必將帶來造芯模式上更大的啟發(fā)和變革。

其次,過去幾年云計算相關(guān)的格局洗牌猜想,同樣也到了有理有據(jù)的結(jié)辯時刻。

過去的市場份額是阿里云一騎絕塵,因為出發(fā)得早。接下來的格局也依然會是阿里云不可爭鋒,因為基于芯片和底層軟硬一體架構(gòu)的壁壘,無人能比,短時間內(nèi)無人能及。

而且業(yè)內(nèi)業(yè)外,一種討論和新觀點也正在愈演愈烈:

新時代的科技競速,本質(zhì)就是以算力為基建的競速。

下層基建決定了上層生態(tài)。底層基建決定了發(fā)展速度。

或許完全強調(diào)算力的作用,太過絕對。但誰也無法否認(rèn)的是,算力正在成為科技發(fā)展中最基礎(chǔ)也最重要的生產(chǎn)要素。

而對于阿里和阿里云來說,過去的積累和沉淀,在當(dāng)前的時代級變革前顯得如此恰逢其時。

芯片、操作系統(tǒng)、數(shù)據(jù)庫、存儲、網(wǎng)絡(luò)和上層應(yīng)用……擁有全棧完整自研軟硬件技術(shù)體系的云計算提供商,中國目前僅此一家。

這是阿里之幸,也是時代給予的機遇??萍甲兏锏囊?guī)律,通常都是哪里有痛點需求,哪里就有解決方案和應(yīng)對之策。

但上一波科技浪潮涌動之時,中國玩家沒能參與其中,基礎(chǔ)半導(dǎo)體的研發(fā)和定義,也完全處于跟隨狀態(tài)。

所以現(xiàn)在,終于終于有機會,可以在全新造芯范式下,從新起點出發(fā),參與硬科技創(chuàng)新的研發(fā)和定義。

或許這一次,也真正有這樣有意思的機會——

源自中國文化里的兵器,比如玄鐵、含光、倚天、屠龍……被更多人追問、了解和感嘆。

平頭哥

平頭哥

平頭哥半導(dǎo)體有限公司于2018年9月宣布成立,是阿里巴巴集團的全資半導(dǎo)體芯片業(yè)務(wù)主體。平頭哥擁有端云一體全棧產(chǎn)品系列,涵蓋數(shù)據(jù)中心人工智能芯片、處理器IP授權(quán)等,實現(xiàn)芯片端到端設(shè)計鏈路全覆蓋。

平頭哥半導(dǎo)體有限公司于2018年9月宣布成立,是阿里巴巴集團的全資半導(dǎo)體芯片業(yè)務(wù)主體。平頭哥擁有端云一體全棧產(chǎn)品系列,涵蓋數(shù)據(jù)中心人工智能芯片、處理器IP授權(quán)等,實現(xiàn)芯片端到端設(shè)計鏈路全覆蓋。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜