前一陣子,Groq芯片刷屏了,據說Groq芯片計算速度遠遠超過英偉達GPU,經網友測試,Groq每秒生成速度接近500 tok/s,碾壓GPT-4的40 tok/s。
Groq是一家成立于2016年的AI創(chuàng)企,據其官網介紹,LPU是一種專為AI推理所設計的芯片。LPU的工作原理與GPU截然不同。它采用了時序指令集計算機(Temporal Instruction Set Computer)架構,這意味著它無需像使用高帶寬存儲器(HBM)的GPU那樣頻繁地從內存中加載數(shù)據。
當然,Groq也受到了廣泛的質疑,主要的點在于,Groq LPU芯片相當于是去掉了HBM,而只是依靠SRAM來計算,Groq極高的速度是建立在很有限的單卡吞吐能力上的。要保證和 H100同樣吞吐量,你就需要更多的卡,因此其實際成本并不低。
媒體熱炒的話題,所謂Groq取代英偉達GPU的可能性,這個主題很吸引眼球,但其實是故弄玄虛,兩者是不同類型的產品,不存在誰取代誰的問題。
正如Groq創(chuàng)始人Jonathan Ross強調的,Groq面向的是大模型推理場景,它只是一款推理用ASIC加速芯片,只能適用特定的模型,而且性價比也不高。
英偉達的GPU產品是通用的,而Groq的產品形態(tài)是ASIC,它不是通用產品,而是一個定制產品。簡單點來說,任何一個人工智能算法都可以使用英偉達的H200,但只有Mixtral和Llama 2才能使用Groq的LPU。大模型公司想要使用Groq的產品,還需要先確定需求和指定規(guī)格,再進行功能驗證,最后生產出來的產品才能使用。
人工智能算力的主要兩個應用場景:訓練和推理。訓練市場顯然英偉達GPU已經沒有對手,但推理市場的競爭才剛剛開始。今年早些時候,瑞銀分析師估計 90% 的芯片需求來自訓練,而這一推論到明年只會推動 20% 的市場份額。推理增長的速度可能比之前預期的要快。
盡管Groq的LPU在速度和成本上具有明顯優(yōu)勢,但它目前主要針對的是推理任務,而不是模型訓練。在AI領域,模型訓練和推理是兩個截然不同的過程,前者需要大量的計算資源和時間,而后者則更注重速度和響應時間。目前,英偉達的GPU在模型訓練方面仍然占據主導地位,而Groq的LPU在這方面的表現(xiàn)尚不得而知。
Groq的創(chuàng)新點:
1、LPU 推理引擎,這是Groq創(chuàng)建的一種新型的端到端處理單元系統(tǒng),可為具有順序組件的計算密集型應用程序提供最快的推理,例如 AI 語言應用程序 (LLM) )。它的核心技術其實是一個名叫TSP的微架構設計,全稱叫做張量流處理器,Tensor Streaming Processor,TSP。
2、可擴展計算架構,比傳統(tǒng)的GPU,GroqChip? 1具有更簡化的編程模型,更高的響應速度以及更可靠的執(zhí)行。該芯片擁有多個特色組件,包括高速網絡、數(shù)據交換器、指令控制、SRAM內存以及Groq TruePoint?矩陣,使其具備了強大的計算能力和靈活性。
3、編譯器創(chuàng)新,公司開發(fā)了一種將LLM處理得像編寫軟件程序一樣的方法,并設計構建了能在其上運行編譯后LLM代碼的芯片級硬件,編譯器可以對程序執(zhí)行進行精確控制,從而提高了執(zhí)行效率,實現(xiàn)了“軟件定義硬件”的機會。
Groq是否比英偉達GPU先進?是否能取代英偉達?是否能取得商業(yè)成功?
大部分看客可能只關心這些問題的結果,但我覺得這些其實并不是關鍵,關鍵在于,在英偉達如日中天的時候,有一家小公司八年磨一劍,敢于對業(yè)界霸主亮劍,敢于對英偉達說不,讓大家看到說:“哦,原來英偉達并不一定是唯一的正確答案?!?/p>
也有資本愿意為其創(chuàng)新買單,支持其從應用需求的本源出發(fā)進行創(chuàng)新。至于Groq是不是能挑戰(zhàn)成功,那要看天時地利人和,但AI芯片領域波濤洶涌,隨著Groq的冒頭,必然還會涌現(xiàn)出更多大量創(chuàng)新級別的產品。
反觀國內的一波明星GPU,也是百花齊放紅極一時,每家融資幾十億規(guī)模,似乎絕大部分只是在跟隨英偉達、模仿英偉達、想成為英偉達,或者說想成為英偉達在國內的替代品,大量的資本也鼓勵這么做,并在二級市場上熱炒那些其實一點不相關的概念,至于我們這些公司,是否有意愿有能力在這個領域敢于投入真正的創(chuàng)新?哪怕是在架構或生態(tài)上有一點自己的想法?