加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 1 專用硬件or通用硬件?
    • 2 復雜計算
    • 3 算力的融合
    • 4 不僅僅是AI計算,而是綜合的計算
    • 5 融合系統(tǒng)的特征
    • 6 融合計算
  • 推薦器件
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

融合的系統(tǒng),融合的計算

05/13 13:38
1776
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

編者按

之前文章中,我們介紹過復雜計算的概念,今天又給出了一個新的概念:融合計算。兩者的區(qū)別在哪里?復雜計算是對需求的描述,而融合計算是對解決方案的描述。很多計算解決方案,聚焦具體算法、具體場景,而忽略了變化、迭代,以及平臺和生態(tài)的建設:

    “不謀萬世者,不足謀一時”。計算的軟硬件演進非???,我們在考慮計算解決方案的時候,不能僅考慮是否滿足當前要求,至少需要考慮未來五年、十年是否可以持續(xù)滿足業(yè)務的需求?!安恢\全局者,不足謀一域”。并且,計算不僅僅是AI計算,也不僅僅是某個特定特征或領域的計算,計算是要以一個通用而綜合的形態(tài),滿足幾乎所有場景的需求。

今天這篇文章,我們展望一個足夠通用、綜合、全面、更長生命周期的理想化的計算體系:融合計算。


1 專用硬件or通用硬件?

算力中心的硬件是預配置的,算力中心運營商在購買硬件時,并不確定這些硬件具體會運行什么計算任務。因此,需要以不變應萬變,優(yōu)先考慮足夠通用的、綜合性的硬件。此外,站在算力中心運營管理的視角,需要盡可能的減少硬件的型號(簡化管理,提高硬件資源利用率,降低成本),最理想情況是:硬件規(guī)格是一致性的,只有一種型號的硬件,然后通過虛擬化實現(xiàn)差異化的“軟件運行平臺”。

云計算/算力中心的理想化目標,就是:

綜合的、通用的硬件和基礎設施;

靈活、高效且低損耗的虛擬化,來實現(xiàn)資源的池化和靈活重組;

面向各類計算場景的、豐富多彩的多種不同規(guī)格的“軟件運行平臺”(軟件運行平臺指的是虛機、容器、函數(shù)等軟件運行環(huán)境;多種規(guī)格的軟件運行平臺,可精確匹配軟件的差異性,滿足系統(tǒng)性能要求的條件下,實現(xiàn)盡可能高的硬件資源利用率)。

2 復雜計算

按照虛擬化的層次,虛擬化可以分為計算機虛擬化、操作系統(tǒng)虛擬化和函數(shù)虛擬化。綜合這三類虛擬化的共性價值:

虛擬化按照一定時間或空間的粒度,把資源切分和組合;

虛擬化屏蔽硬件架構/軟件接口的差異性,為上層軟件提供一致性的硬件/軟件;

虛擬化為上層軟件系統(tǒng)提供多種下層資源不同比例組合的運行平臺;

上層軟件系統(tǒng)和下層硬件/軟件系統(tǒng)解耦,上層軟件系統(tǒng)作為運行實體,可以創(chuàng)建/銷毀、運行/掛起、復制、遷移等;

多系統(tǒng)隔離/共存:資源共享的同時,數(shù)據(jù)隔離、性能隔離、故障隔離、安全隔離;

提升系統(tǒng)靈活性,提升資源利用率,提升硬件負載均衡性,提升軟件高可用性。

以VM為例,假設有100臺服務器,一臺物理的服務器虛擬出10臺VM,1000個邏輯的機器VM分屬于50個不同大小的私有集群。

復雜系統(tǒng)的多集群、多系統(tǒng)和動態(tài)共存體現(xiàn)在:

硬件集群:供系統(tǒng)調(diào)度的一組硬件設備的集合,可以從數(shù)臺到數(shù)千臺,甚至上萬到百萬臺的規(guī)模,也可以超大規(guī)模到跨算力中心的千萬級甚至更多計算設備;

軟件多系統(tǒng):通過虛擬化機制,實現(xiàn)單個硬件上的多個不同規(guī)格的軟件系統(tǒng)共存;

軟件多系統(tǒng)集群:一組軟件系統(tǒng)組成軟件集群,多組軟件集群混合交叉部署在一組硬件集群之上;

動態(tài)性:宏觀的看,這些硬件集群和軟件集群的配置一直處于頻繁的變更中。

因此,我們可以得到復雜計算的定義:①基于一組硬件集群,②運行多軟件系統(tǒng)集群的、 ③動態(tài)的、 ④交叉混合計算。展開說明:

單個硬件支持多個不同規(guī)格軟件系統(tǒng)的計算。

單個硬件集群支持多個軟件系統(tǒng)集群的計算,并且軟件系統(tǒng)集群交叉混布。

數(shù)以萬計、百萬計甚至更多計算設備的超大規(guī)模,完全動態(tài)的、非常頻繁的軟硬件配置變更。

硬件需要足夠的一致性(盡可能少的型號和規(guī)格),在一致性硬件的基礎上實現(xiàn)軟件運行平臺的差異性。

盡可能滿足所有場景的、足夠通用的、綜合性的計算平臺和系統(tǒng)。

3 算力的融合

目前,算力中心通常包括四個方向:

通用計算(主要基于CPU服務器);

超級計算(基于巨型計算機的高性能計算);

智能計算(基于GPU、AI加速等芯片的異構服務器);

分布式存儲(獨立的分布式存儲體系,甚至存儲還分為熱存、溫存和冷存三個獨立的硬件基礎設施)。

目前,許多算力中心是特色的,僅面向這四類計算中的某一種;而有些超大規(guī)模的算力中心是相對綜合的,包含了上述四類計算的兩種、三種,甚至全部四種,但這四種不同方向的計算,通常是物理分割的各自獨立的區(qū)域。上面這些做法,跟云計算的發(fā)展理念是相悖的。云計算通過資源池化可以實現(xiàn)資源的動態(tài)共享,提升資源的利用率,進而降低成本。按照云計算的理念,應該是在通用而綜合的云服務體系(IaaS/PaaS/SaaS)之上,構建性能、延遲、成本、安全等方面滿足要求的彈性的各類計算集群。

4 不僅僅是AI計算,而是綜合的計算

如果把AI計算比作“主菜”,那么綜合計算則是一桌“宴席”。

計算的位置是云計算、邊緣計算和終端計算;而AI計算是業(yè)務層次的計算。

AI很重要,但圍繞著AI,還有很多其他類型的計算。

以AI為主要計算的AI+業(yè)務場景越來越多;但仍然有很多計算任務,不需要AI的參與,或者AI計算量占比較低。

綜合的計算:通過云計算、邊緣計算、終端計算的方式,為所有的計算任務提供承載。包括AI計算任務,也包括其他計算任務。這些計算任務并行不悖的混合運行在云、邊或端。

5 融合系統(tǒng)的特征

宏觀的系統(tǒng)只有一個:通過算力網(wǎng)絡,把分散在各地的云計算數(shù)據(jù)中心/算力中心、邊緣算力中心,以及形形色色的終端計算設備,連成了一個超級巨大的系統(tǒng)。這個系統(tǒng),我們稱它為融合系統(tǒng)。融合的系統(tǒng)有哪些基礎特征呢?這里我們總結如下。

1) 需求的未知

系統(tǒng)場景一直在快速變化:上層軟件場景層出不窮,兩年一個新熱點,已有的熱點仍在快速演進。

宏觀大系統(tǒng),硬件資源是預先準備好的。在購買和部署的時候,不知道具體的資源會給到哪個用戶,也不知道用戶在此資源上會運行哪些任務。

傳統(tǒng)的芯片設計,需要先理解場景,然后根據(jù)需求設計芯片?,F(xiàn)在的挑戰(zhàn)是:一方面,場景需求不確定,不但芯片公司不了解,客戶自己也“不了解”;另一方面,芯片的研發(fā)和生命周期很長。

復雜融合的系統(tǒng)和芯片設計,需要“無的放矢”。

2) 全面而綜合

不管是云計算數(shù)據(jù)中心系統(tǒng),還是云網(wǎng)邊端萬物互聯(lián)系統(tǒng),亦或是云宇宙虛實融合系統(tǒng),宏觀的系統(tǒng),只有“一個”。

千千萬不同用戶的需求形形色色、多種多樣;并且,用戶的需求一直處于快速的變化中;此外,新增的用戶和新增的需求,也會不斷增加。

面對未知的需求,系統(tǒng)都要能夠支持。系統(tǒng)需要有包羅萬象的能力,任何事情都能干。

3) 專業(yè)而高效

通常情況下,“專業(yè)的人做專業(yè)的事”。言下之意是:專才只能做本領域的事情,其他領域的事情并不擅長。

與此同時,通才什么事情都能做,但做每個領域的事情,都不夠高效。

對復雜融合的宏觀大系統(tǒng)來說,需要既通又專:系統(tǒng)不僅僅要能做所有事情,并且做任何事情都要足夠專業(yè)而高效。

4) 超級并發(fā)

    數(shù)以萬計的用戶,數(shù)以億計的用戶任務,而系統(tǒng)只有“一個”。千千萬用戶的需求需要時刻滿足,用戶的工作任務需要快速得到處理。系統(tǒng)需要在同一時刻,處理數(shù)以億計的各種類型的用戶任務。

5) 無處不在

系統(tǒng)覆蓋非常廣泛的地域:算力無處不在,算力資源唾手可得。

在任何地方,任何時刻,為用戶的任何工作任務,都能提供算力和相關資源支撐。

以最合適的形態(tài),最合適的方式,最合適的價格,給用戶更好的體驗,為用戶創(chuàng)造更大的價值。

6) 快速演進

上層軟件應用層出不窮,系統(tǒng)需求快速變化。

同一領域,不同用戶的需求具有差異性;同一用戶,業(yè)務需求快速迭代。

宏觀的看,用戶以及用戶需要運行的任務,一直處于不斷的變化中。

復雜而融合的系統(tǒng),需要持續(xù)快速演進,才能適應上層業(yè)務需求的不斷變化。

6 融合計算

前面文章我們介紹過宏觀總算力的概念,這里簡單總結一下。

要想提升宏觀的實際總算力,有三個途徑:

方法一,Scale Up方式,提升單芯片的性能;

方法二,Scale Out方式,提升芯片落地的規(guī)模/數(shù)量;

方法三,則是提高算力利用率。

算力提升,是一個復雜而龐大的系統(tǒng)工程。不僅需要各個相關領域的持續(xù)優(yōu)化,還需要跨領域的協(xié)同創(chuàng)新。需要從數(shù)據(jù)中心多層次挖潛,整體協(xié)同優(yōu)化。優(yōu)化的主要方向有:

工藝和封裝:更先進的工藝、3D集成,以及Chiplet封裝等。

芯片實現(xiàn)(微架構):通過一些創(chuàng)新的設計實現(xiàn),如存算一體、DSA架構設計以及各類新型存儲等。

系統(tǒng)架構:比如開放精簡的RISC-v,異構計算逐漸走向異構融合計算,以及駕馭復雜計算的軟硬件融合等。

系統(tǒng)軟件、框架、庫:基礎的如OS、Hypervisor、容器,以及需要持續(xù)優(yōu)化和開源開放的各類計算框架和庫等。

業(yè)務應用(算法):業(yè)務場景算法優(yōu)化、算法的并行性優(yōu)化等;以及系統(tǒng)的靈活性和可編程性設計;系統(tǒng)的控制和管理、系統(tǒng)的擴展性等。

硬件設備:包括服務器、交換機等,多個功能芯片的板卡集成,定制板卡和服務器,服務器電源和散熱優(yōu)化。

數(shù)據(jù)中心:網(wǎng)絡可維護性、高速網(wǎng)絡、網(wǎng)絡平臺化等;基礎設施:如綠色DC,液冷、PUE優(yōu)化等;運營和管理:如超大規(guī)模DC運營管理,跨DC運營和管理調(diào)度等。

更宏觀的系統(tǒng):如高性能的城域網(wǎng)、互聯(lián)網(wǎng),云網(wǎng)邊端深度協(xié)同和融合等。

計算,既是宏觀的,也是系統(tǒng)的。因此,這里我們給出一個綜合的概念:融合計算。

融合計算 = 異構融合 x 軟硬件融合 x 云邊端融合

融合計算是在三個維度融合基礎上的再融合:

    X軸,異構融合。通過異構融合計算,把各類異構算力的價值發(fā)揮到極致。Y軸,軟硬件融合。通過核心的系統(tǒng)層軟件(KubeCASH管理系統(tǒng)),融合軟硬件堆棧,實現(xiàn)更加通用的計算,從而使得芯片的規(guī)??梢钥焖贁U大。同時,通過開源開放,兼容已有的客戶業(yè)務軟件生態(tài),能降低客戶門檻,進一步實現(xiàn)大范圍落地。Z軸,云邊端融合??缢懔χ行?、跨不同云運營商、跨云邊端融合的計算。

(正文完)

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
ATXMEGA128D4-CU 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 49VFBGA
$16.33 查看

相關推薦

電子產(chǎn)業(yè)圖譜

公眾號:軟硬件融合;CPU靈活性好但性能較差,ASIC性能極致但靈活性差,魚和熊掌如何兼得,同時兼顧性能和靈活性,我給出的方案是“軟硬件融合”。軟硬件融合不是說要軟硬件緊耦合,相反,是要權衡在不同層次和粒度解耦之后,再更加充分的協(xié)同。