6月26日,科技圈迎來了一個重要新聞。美國新興的芯片創(chuàng)業(yè)公司Etched發(fā)布其首款AI芯片——Sohu。這款芯片在運行大型模型時展現出了驚人的性能,其速度超越了行業(yè)巨頭英偉達的H100高達20倍,即便是與今年3月才面世的頂尖芯片B200相比,Sohu也展現出超過10倍的優(yōu)越性能。
近兩年的人工智能繁榮,讓英偉達憑借GPU登上了芯片之巔。包括AMD、Intel、Graphcore、Cerebras和Tenstorrent等在內的傳統(tǒng)和新貴芯片企業(yè)也在各施奇招,試圖在這個領域將英偉達拉下馬。
AI芯片的當前格局
AI芯片也被稱為AI加速器或計算卡,是專門用于處理人工智能應用中的大量計算任務的模塊,主要包括圖形處理器(GPU)、現場可編程門陣列(FPGA)、專用集成電路(ASIC)等。根據Gartner的數據,2022年全球AI芯片市場規(guī)模為442億美元,預計2027年增長至1194億美元。
GPU,圖形處理器,又稱顯示核心、視覺處理器、顯示芯片,是一種專門在個人電腦、工作站、游戲機和一些移動設備(如平板電腦、智能手機等)上做圖像和圖形相關運算工作的微處理器。FPGA是一種半定制芯片,提供了一種靈活的解決方案。用戶可以根據自身的需求進行重新編程配置硬件。
ASIC,即專用集成電路,相當于把某種特定的程序“硬件化”,并且只為一種任務優(yōu)化,去掉不必要的功能,以達到比通用芯片更快并且功耗更低的目的。特別值得一提的是ASIC中的TPU,如Google的TPU、SOPHGO的高性能TPU,它們是為特定類型的機器學習任務而優(yōu)化的處理器。TPU的設計針對深度學習算法的特定數學運算進行了優(yōu)化,提供了高性能的計算能力,同時保持了較低的能耗。
對比來看,GPU的計算能力最強,但是成本高、功耗高;FPGA可編程,最靈活,但是計算能力不強;ASIC體積小、功耗低,適合量產,但是研發(fā)時間長,且不可編輯,前期投入成本高,帶來一定的技術風險。AI芯片的選擇取決于多種因素,包括應用場景、性能需求、成本考量以及開發(fā)時間。隨著AI技術的不斷進步和市場需求的日益增長,AI芯片的格局也在不斷演變。
英偉達身價水漲船高
自2022年11月開始,OpenAI公司發(fā)布AI聊天機器人ChatGPT迅速風靡全球,并掀起了一場圍繞AI大模型的競賽和熱潮。
作為AI底層算力“霸主”的英偉達,是這輪熱潮中最大的受益者之一,其GPU產品在大模型訓練上幾乎無替代品。隨著亞馬遜、微軟和谷歌等公司之間 AI “軍備競賽”升溫,英偉達的A100和H100芯片成為大模型訓練的“硬通貨”。人工智能領域研究機構Gartner今年1月的數據表明,英偉達在全球人工智能芯片市場的市占率已超90%,創(chuàng)下新紀錄。
今年3月,英偉達創(chuàng)始人兼CEO黃仁勛表示,英偉達 AI 超級計算機 DGX 是大模型背后的引擎,他曾親手將全球首款DGX交給OpenAI 公司。自此之后,全球超100家頭部企業(yè)中有一半安裝了這款產品。6月2日,黃仁勛宣布,Blackwell芯片現已開始投產。
Blackwell GPU目前號稱是“世界最強大的芯片”,集成2080億顆晶體管,采用定制臺積電4NP工藝,承襲“拼裝芯片”的思路,采用統(tǒng)一內存架構+雙芯配置,共有192GB HBM3e內存、8TB/s顯存帶寬,單卡AI訓練算力可達 20000 TFLOPS。
這個算力可以說非常夸張了,黃仁勛對此表示稱,僅用了八年時間,英偉達就使得 AI 算力從2016年Pascal的19 TFLOPS 提升到了2024年Blackwell的20000 TFLOPS,整整提升了1000倍,這一速度幾乎超越了摩爾定律在最佳時期的增長。目前,英偉達的人工智能芯片出現供不應求的局面。AWS、戴爾、谷歌、Meta、微軟、OpenAI、甲骨文、特斯拉、xAI都將采用Blackwell產品。甚至特斯拉CEO馬斯克直言:“目前在AI領域,沒有比英偉達硬件更好的。”
全球科技巨頭卷向AI芯片賽道
從市場競爭的角度來看,黃仁勛的對手也在加速追趕的過程中,都想來爭奪AI芯片爆發(fā)的美味蛋糕。
ChatGPT的開發(fā)者OpenAI正在探索自研AI芯片,同時開始評估潛在收購目標。AWS自研AI芯片陣容包括推理芯片Inferentia和訓練芯片Trainium。特斯拉也積極參與AI加速器芯片的開發(fā)。特斯拉主要圍繞自動駕駛需求,迄今為止推出了兩款AI芯片:全自動駕駛(FSD)芯片和Dojo D1芯片。
6月3日,AMD公司CEO蘇姿豐(Lisa Su)宣布,更新Instinct GPU系列路線圖,將在每一代產品中帶來年度領先的 AI 性能和內存功能,從而加速AMD在數據中心AI創(chuàng)新和領導地位。其中,全新 AMD Instinct MI325X AI加速器(芯片),將配備288GB HBM3E內存和 6TB/秒的內存帶寬,采用與MI300系列相同設計。相比英偉達最強 AI 芯片H200,MI325X內存容量提高2倍、帶寬提升1.3倍、計算性能提升1.3倍,最快2024年四季度上市。
同時,此次AMD還預覽下一代AMD Instinct MI350系列——首款MI350X加速器,基于全新AMD CDNA 4架構,采用臺積電3nm工藝,具有高達288 GB的HBM3E內存。相比MI300系列,新的MI350系列的 AI 推理性能將提高驚人的35倍(3500%),預計將于2025年上市。
Google早在2013年就秘密研發(fā)專注AI機器學習算法芯片,并用于云計算數據中心,取代英偉達 GPU。這款TPU自研芯片2016年公開,為深度學習模型執(zhí)行大規(guī)模矩陣運算,如自然語言處理、計算機視覺和推薦系統(tǒng)模型。Google 其實在2020年的資料中心便建構 AI 芯片 TPU v4,直到2023年4月才首次公開細節(jié)。前面也有提到,TPU是一種定制化的ASIC芯片,它由谷歌從頭設計,并專門用于機器學習工作負載。
國內AI芯片企業(yè)百花齊放
聚焦國內市場,去年上半年中國本土AI芯片品牌出貨超5萬張,市占率為10%。市占率鴻溝的背后,是英偉達深耕GPU市場三十余年建立起的強大壁壘。當下,國內AI芯片廠商在政策和需求的雙重拉動下奮起直追,華為海思、寒武紀、地平線等也在各施奇招,爭奪登上前往AI時代的一張新船票,為算力之爭增添新動能。
寒武紀:AI芯片獨角獸,中國ASIC路線先行者,成立于2016年,是全球AI芯片領域第一個獨角獸初創(chuàng)公司,研發(fā)團隊成員主要來自中科院。寒武紀產品布局全面覆蓋云端、邊緣端和終端場景。
華為海思:海思半導體成立于2004年10月,是華為的全資子公司。得益于母公司的全力支持和高研發(fā)投入。多年的技術積累使海思掌握了國際一流的IC設計與驗證技術,擁有先進的EDA設計平臺、開發(fā)流程和規(guī)范。產品覆蓋智慧視覺、AIoT、智慧媒體、智慧交通及汽車電子、顯示、手機終端、數據中心及光收發(fā)器等多個領域。
地平線:成立于2015年,專注于邊緣智能駕駛芯片的研發(fā),擁有領先的AI算法和芯片設計能力,通過“芯片+算法+工具鏈+開放平臺”的商業(yè)模式,為智能駕駛和AIoT領域提供強大的算力支持和開放的開發(fā)生態(tài)。
對于互聯網大廠來說,騰訊、百度、阿里巴巴等均在AI芯片領域大力布局。其中,騰訊投資燧原科技、百度投資昆侖芯、阿里巴巴則孵化了平頭哥。
除此之外,原AMD全球GPGPU設計總負責人陳維良成立了沐曦集成電路,兩位CTO均為前AMD首席科學家;原AMD首席工程師鄭金山成立了天數智芯,首席技術官曾任三星全球副總裁;原商湯科技總裁張文成立了壁仞科技,CTO曾任職于海思的GPU自研團隊。
不難看出,AI 芯片市場出現了越來越多的新鮮血液,有望形成“百花齊放”的局面,我們也更期待看到國內企業(yè)的突飛猛進。對于這個賽道未來的發(fā)展,仍然會有很多的可能性。