eFPGA IP業(yè)務的發(fā)明者
自1984年以來,FPGA市場一直在增長,但未經歷爆發(fā)性增長。FPGA以其硬件可編程性和高性能而被廣泛應用于技術前沿,尤其在新技術和標準的早期實現(xiàn)和中小規(guī)模部署中發(fā)揮作用。隨著數(shù)據(jù)量的爆炸性增長使得傳統(tǒng)的處理模式受到挑戰(zhàn),這為FPGA行業(yè)帶來了新機會,越來越多的應用將任務從CPU轉移到FPGA處理,以發(fā)揮FPGA在能效和處理延遲方面的優(yōu)勢。
我們都知道FPGA的發(fā)明者是賽靈思,但今天要介紹的則是eFPGA(嵌入式FPGA)業(yè)務的發(fā)明者——Achronix。
2016年,源于客戶的強烈需求,Achronix開創(chuàng)了eFPGA IP市場。
自成立以來,Achronix一直致力于高端FPGA市場和eFPGA技術的發(fā)展,也是目前唯一同時提供高性能高密度獨立FPGA芯片和eFPGA IP解決方案的供應商。
Achronix的核心特點包括高端、高帶寬FPGA,如采用7納米工藝的Speedster7t系列,配備高速接口、二維片上網絡(2D NoC)和機器學習處理器(MLP)等先進技術。
另一個顯著特點是Speedcore eFPGA硅知識產權(IP),即提供FPGA技術授權給客戶,使客戶能夠為其ASIC/SoC添加可編程邏輯陣列。
可以說,高端FPGA芯片、eFPGA IP和基于高端FPGA芯片的先進加速卡這樣的產品組合目前在全球范圍內是獨一無二的。得益于其Speedcore eFPGA IP等旗艦產品,該公司已在多個行業(yè)領域授權了超過1500萬個eFPGA。
近年來新興市場的快速成長要求企業(yè)在投入巨大成本和時間進行開發(fā)時,要更多地考慮利用FPGA技術。企業(yè)數(shù)據(jù)中心或邊緣計算解決方案在不同發(fā)展階段對硬件的要求各異,他們需要靈活適應應用規(guī)模和使用量。為此,Achronix提出了一種新的可編程硬件應用模式,能夠適應不同階段的需求。例如,研發(fā)初期和早期部署可以使用符合PCIe等標準接口的加速卡,而全面量產時則可選擇獨立FPGA芯片,應用規(guī)模進一步上升時,可選擇eFPGA IP產品來定制SoC或ASIC。
Achronix Semiconductor中國區(qū)總經理郭道正
近日,接受了與非網記者的采訪。郭總畢業(yè)于上海交大,擁有二十余年FPGA行業(yè)經驗。他介紹了Achronix在高端FPGA和eFPGA IP領域的創(chuàng)新與市場領導地位,同時也強調了Achronix在FPGA領域的專注和特殊定位。“雖然eFPGA IP授權是需要市場接受的一個新概念,需要時間來培育和教育市場,但這種技術在新市場和新技術應用中的價值非常顯著。尤其在網絡連接、新一代通信、自動駕駛和ADAS等領域,其中eFPGA因其低成本和高效率而成為理想解決方案?!?郭道正表示。
eFPGA IP的優(yōu)勢?
郭道正指出,Achronix提供的Speedcore eFPGA IP目前已非常成熟,在不同工藝節(jié)點上已得到充分的生產制造驗證。相比之下,F(xiàn)PGA可以采用較老的工藝來生產,例如55/60nm、40nm或28nm,而eFPGA通常需要更先進的工藝,比如16nm、12nm、7nm、5nm和3nm。這主要是因為eFPGA的客戶群體通常是高性能應用,需要先進的工藝來滿足他們的需求。
除了工藝先進、可編程、高性能之外,eFPGA IP在成本上可以低至相當于獨立FPGA芯片的10%。對于芯片設計企業(yè)來說,購買Achronix的eFPGA IP授權合作模式,類似于購買Arm內核授權,這可以大大縮短為SoC或ASIC設計開發(fā)可編程邏輯陣列的時間,并提高芯片的性能和延長其生命周期。相對于獨立FPGA芯片,eFPGA的成本大幅降低,功耗也顯著減少,還可以利用優(yōu)化的內部連接和布局來提高性能。
此外,這種模式更適合客戶在新興市場上逐漸擴大自己的規(guī)模,可以在保持高性能和高性價比的同時,維持創(chuàng)新性。郭道正還表示,所有在Achronix FPGA上開發(fā)的IP都可以復用,從而最大化利用現(xiàn)有開發(fā)成果,提高經濟效益和靈活性,避免標準演進、算法更新和市場變化導致重新研發(fā)的困境。
eFPGA IP另一個優(yōu)點是支持chiplet。以Fraunhofer研究所為例,目前就在新項目中充分利用Achronix的Speedcore? eFPGA IP。這個項目主要是高速ADC與Achronix的eFPGA IP連接,用于雷達以及無線和光通信中的預處理。相關多芯片系統(tǒng)解決方案將由多個chiplet組成,用于探索芯片間的事務層互連技術,如束線(BoW)模式和通用chiplet高速互連協(xié)議UCIe。這些chiplet相比傳統(tǒng)通過印刷電路板連接的分立器件,具有更低的延遲、更高的帶寬和更低的成本。
最適合eFPGA的應用市場有哪些?
據(jù)了解,eFPGA IP的競爭對手并非傳統(tǒng)的FPGA芯片制造商,也不直接與CPU或其他處理器IP形成競爭關系。相反,eFPGA在芯片設計中充當可編程和可升級的硬件加速器,其優(yōu)勢在于能夠提供高效的并行處理和低延遲,這些特性是CPU無法或者難以實現(xiàn)的。因此,eFPGA的引入更多地是取決于向客戶展示其在整體芯片設計中的價值。此外,隨著技術發(fā)展,特別是chiplet技術的廣泛應用,Achronix也在支持客戶基于eFPGA做chiplet組件的模式,以實現(xiàn)創(chuàng)新。
據(jù)介紹,目前Achronix針對中國市場的eFPGA業(yè)務也在積極展開,盡管市場每年都在增長,但仍處于早期階段。郭道正表示,Achronix全球所有客戶嵌入eFPGA的芯片產品的出貨量在前年超過了1500萬個,雖然與通用處理器IP的出貨量相比不算多,但對于行業(yè)來說已是不小的數(shù)據(jù)。
郭道正對與非網記者表示,F(xiàn)PGA在處理大模型方面的靈活性和高效能使其成為硬件加速的理想選擇。同時,隨著AI技術的進一步發(fā)展和應用的擴展,eFPGA的可編程性和靈活性使其在快速變化的市場環(huán)境中具有獨特優(yōu)勢。是采用FPGA還是eFPGA IP,最終還是取決于應用的規(guī)模。如果應用場景需要的芯片數(shù)量大到一定程度,更適合采用集成eFPGA的ASIC形態(tài),因為SoC或ASIC可以大幅降低成本和功耗,同時提高性能。他指出,在快速演進的領域內做ASIC應保留一定的靈活性。芯片設計公司在規(guī)劃新應用時,需要考慮市場規(guī)模和應用的核心功能。eFPGA可幫助他們適應標準、功能和算法的演進,特別是在快速發(fā)展的AI領域中。例如,在針對單一應用的手機上使用eFPGA可能較困難,因為這類場景對性能和可編程性的要求不高。然而,對于更多樣化和變化的邊緣應用,如工業(yè)和智能汽車應用,eFPGA可能更加適用。
AI典型案例介紹:數(shù)據(jù)中心
隨著AI大模型的爆發(fā)與普及,ASIC的開發(fā)可能因芯片架構的迅速變化而面臨研發(fā)成果過時的風險,這要求設計者考慮更靈活、能適應未來變化的解決方案。隨著模型的不斷增長,僅靠CPU運行不再具備成本、功耗或延遲的優(yōu)勢。因此,使用如GPU或FPGA這類加速器成為了一種趨勢,它們可以顯著提高計算能效,大幅降低系統(tǒng)延遲,并在更小的規(guī)模上實現(xiàn)更高水平的計算。當系統(tǒng)規(guī)模擴展到需要超過8個處理器時(例如GPT-3的訓練需要使用10,000個GPU),使用FPGA執(zhí)行大型語言模型在吞吐量和延遲方面勝過GPU。如果模型可以使用INT8精度,則Achronix FPGA在性能上具有更大的優(yōu)勢,尤其是在GPT-20B等大型模型上。使用FPGA的優(yōu)勢還包括較短的交付時間、更多的用戶支持,并且成本通常低于GPU。
事實上,目前FPGA在計算成本上已經低于Nvidia的A100 GPU芯片,并且除了計算能力,F(xiàn)PGA還支持高速互聯(lián),為不同廠商的計算提供互聯(lián)優(yōu)勢。這使得FPGA在人工智能推理應用中表現(xiàn)出巨大優(yōu)勢。
近年來,F(xiàn)PGA芯片的主要市場從通信基礎設備逐漸轉移到數(shù)據(jù)中心,并增加了人工智能應用。AI大模型的演進也對硬件設計提出挑戰(zhàn)。例如,GPT 4.5 turbo展示了模型的快速發(fā)展,顛覆現(xiàn)有技術。這要求芯片設計者考慮未來的可能變化,不僅僅是當前需求。例如,目前大多數(shù)AI框架基于Transformer模型,但未來可能出現(xiàn)新的模型和架構,要求芯片設計具有前瞻性和靈活性。Achronix的高性能FPGA產品正是滿足上述性能高、數(shù)據(jù)帶寬稿和算法變化快的市場需求,如Speedster7t系列,在大模型推理方面的性能甚至超過了一些知名的GPU芯片。
Achronix的Speedster7t FPGA具有一個獨特的架構,使其非常適合于大型語言模型。它擁有硬二維片上網絡(2D NoC),解決了器件內的數(shù)據(jù)傳輸和輸入輸出問題。此外,它使用了帶有緊耦合RAM的機器學習處理器(MLP),在計算過程中實現(xiàn)了高效的結果重用。與其他FPGA不同,Achronix的Speedster7t FPGA還配備了八組高效的GDDR6存儲器IP,支持更高的存儲帶寬,并且能夠以4 Tbps的速度加載參數(shù)。由于這些系統(tǒng)的可擴展性需求,F(xiàn)PGA可以利用各種標準接口,以將加速卡互連并實現(xiàn)卡之間的無縫數(shù)據(jù)傳輸。例如,Achronix的Speedster7t AC7t1500器件具有32個100 Gbps的SerDes通道,不需要依賴于專有且成本高昂的解決方案,如NVLink。
以與Myrtle.ai在自動語音識別(ASR)加速解決方案上的的合作為例。該方案采用搭載Speedster7t FPGA器件的VectorPath加速卡,運行Myrtle.ai提供的基于Achronix FPGA優(yōu)化的ASR IP,實現(xiàn)實時、超低延遲的語音轉文本功能。該方案支持1000個并發(fā)語音流的識別,實現(xiàn)極低單詞錯誤率和54毫秒的端到端99%延遲。相比于傳統(tǒng)的CPU或GPU加速卡,單張VectorPath加速卡可替代多達20臺CPU服務器或15張GPU加速卡。該解決方案還可在標準的機器學習框架中使用特定或自定義數(shù)據(jù)集進行定制或重新訓練,提供靈活性以權衡準確性與性能。該方案的性能是基于A100的ASR解決方案的8倍,延遲僅為GPU方案的1/8;與CPU方案相比,低延遲性能提升了約200倍。
這一案例充分展示了Achronix的FPGA在大規(guī)模推理應用中的強大能力,特別是在適應新一代大模型輸入輸出方面的高效率。例如,這種應用非常適合像微信這樣的大型平臺,它們擁有幾億甚至幾十億用戶,支持語音輸入或轉換,可以大大提高后臺的轉換能力并減少用戶的等待時間。
AI典型案例介紹:ADAS
另一個重要的應用案例是ADAS。目前汽車中已經安裝了超過2.5億顆FPGA芯片,其中超過7500萬顆用于ADAS應用。隨著硬件加速功能的不斷增強,像FPGA和ASIC這樣的器件通常還需要相伴而行。因此,今天的ADAS解決方案需要將硬件加速器與CPU集成在一起,以便在系統(tǒng)級別處理許多通用型和組織型任務。正是因為這個原因,異構計算平臺(如異構SoC)已經成為加速和ADAS平臺中最常見的平臺之一。
為什么eFPGA IP是ADAS的理想選擇?隨著ADAS系統(tǒng)的復雜化,硬件設計面臨的挑戰(zhàn)也日益增加。ADAS硬件需要確保車輛乘員的安全,這要求系統(tǒng)能夠準確、可靠地實時工作,同時在盡可能低的功耗下運行。這些要求對ADAS構成了巨大的挑戰(zhàn),因為系統(tǒng)通常依賴于大量的數(shù)據(jù)和計算密集型任務,如機器學習算法。因此,ADAS硬件必須同時高效地獲取和處理數(shù)據(jù),并以最低的功耗預算運行。
由于FPGA的可編程特性,它在可擴展性方面比ASIC更具優(yōu)勢。這種適應性在像ADAS這樣底層算法不斷變化的機器學習系統(tǒng)中尤為重要。此外,ASIC的規(guī)格必須提前幾年定義,而FPGA可以在一分鐘內更新和重新編程。這一功能使基于FPGA的ADAS系統(tǒng)能夠提供ASIC無法實現(xiàn)的可擴展性和多功能性。
為了解決ADAS硬件面臨的挑戰(zhàn),設計人員正在采用專用硬件加速器來提高性能,而不是依賴于傳統(tǒng)的基于CPU的架構。專用硬件加速器比常規(guī)的計算資源(如CPU或GPU)提供了更好的性能和能效。在此背景下,F(xiàn)PGA提供了最大的靈活性,而ASIC則提供了最高的性能。FPGA的關鍵特性之一是能夠提供高級別的并行性,同時仍然可以針對特定的工作負載進行編程。這表明,F(xiàn)PGA在工作負載加速方面提供了顯著的價值,尤其是在性能和延遲成為關鍵因素的情況下。此外,與常規(guī)的CPU和基于GPU的系統(tǒng)相比,F(xiàn)PGA可以為需要加速的工作負載提供每瓦特最佳的性能,從而幫助系統(tǒng)平衡性能和功率效率之間的權衡。
Achronix的Speedcore IP這樣的eFPGA技術可以與CPU資源緊密耦合
郭道正對與非網記者表示,雖然采用FPGA或eFPGA的異構計算架構并非ADAS或自動駕駛芯片的唯一技術路徑,但它是一條非常有效的路線。因為FPGA和eFPGA不僅提供可編程計算,還能提供數(shù)據(jù)處理加速。借助eFPGA IP,設計人員能夠利用FPGA技術的優(yōu)勢,同時將其硬件加速與其他ASIC子系統(tǒng)(如CPU和I/O接口)緊密耦合。通過將FPGA與CPU一起嵌入到定制SoC中,與分立式FPGA解決方案相比,eFPGA IP可顯著節(jié)省成本、功耗和空間。具體來說,與基于FPGA的獨立系統(tǒng)相比,eFPGA IP集成可以幫助設計人員節(jié)省90%的成本、降低75%的功耗、延遲改善100倍、接口帶寬增加10倍。因此,預計ADAS將逐步采用基于eFPGA技術的異構解決方案。
ADAS給計算硬件造成了巨大壓力
eFPGA潛力巨大,但需要市場培育
最后,郭道正也表示,目前Achronix的主要營業(yè)收入還是來自FPGA芯片的銷售,eFPGA IP銷售只占很小一部分。這也很好理解,做IP的Arm的營收大概一年有30億美元,而英特爾的營收可以達到700億美元。
但是展望未來,與傳統(tǒng)FPGA市場相比,郭道正認為eFPGA市場擁有更大的發(fā)展空間。但這也同樣需要大量的市場教育。郭道正認為,對于面向未來的高性能芯片,開發(fā)團隊成員包括核心架構師,甚至公司決策者,通常沒有充分的經驗來參考,傾向于依賴于已有的成功技術路線。eFPGA和CPU雖然都是可編程的,但許多人習慣于采用Arm或RISC-V等CPU。盡管Achronix在eFPGA領域內領先,但仍需投入大量時間和精力去教育市場,說明為什么eFPGA是一個有價值的選擇。這是一個需要耐心和細致工作的過程,盡管Achronix每年都在成長,但仍需要加大投入來經歷這個過程。