?
摩爾定律為計(jì)算機(jī)行業(yè)提供了一段顯著的增長(zhǎng)和穩(wěn)定的時(shí)期,晶體管密度以預(yù)測(cè)的節(jié)奏加倍,不僅推動(dòng)了五十年的處理器性能提升,而且推動(dòng)了通用計(jì)算模型的興起。然而,根據(jù)麻省理工學(xué)院和亞琛大學(xué)的研究人員的論文,摩爾定律帶來(lái)的這一切都將結(jié)束。
麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的 Neil Thompson、哈佛大學(xué)的客座教授以及亞琛工業(yè)大學(xué)的研究生 Svenja Spanuth 討論說(shuō),摩爾定律的失效,以及深度學(xué)習(xí)和加密貨幣挖掘等新應(yīng)用,正在推動(dòng)行業(yè)遠(yuǎn)離通用微處理器,轉(zhuǎn)向有利于專(zhuān)用微處理器的模式?!巴ㄓ?a class="article-link" target="_blank" href="/baike/1386991.html">計(jì)算機(jī)芯片的興起非常快,因此他們同樣會(huì)很快衰落”他們這樣爭(zhēng)辯道。
正如他們所指出的那樣,通用計(jì)算并不總是一般需求,在超級(jí)計(jì)算的早期階段,來(lái)自 Cray 等公司的定制矢量架構(gòu)主導(dǎo)了 HPC 行業(yè)。目前,NEC 構(gòu)建的矢量系統(tǒng)仍然存在這種情況。但由于摩爾定律在過(guò)去幾十年中不斷提高晶體管性?xún)r(jià)比,經(jīng)濟(jì)力量的重心基本偏向通用處理器。
這主要也是因?yàn)殚_(kāi)發(fā)和制造定制芯片的成本在 3000 萬(wàn)到 8000 萬(wàn)美元之間,因此,對(duì)有高性能微處理器需求的用戶(hù)而言,采用專(zhuān)用架構(gòu)的好處也僅僅是九牛一毛,因?yàn)槎ㄖ苹慕鉀Q方案帶來(lái)的初始性能提升,通過(guò)縮小通用芯片中的晶體管就能達(dá)到,同時(shí),晶體管縮小所產(chǎn)生的成本可以在數(shù)百萬(wàn)個(gè)處理器中攤銷(xiāo)。
但摩爾定律所帶來(lái)的計(jì)算經(jīng)濟(jì)學(xué)正在發(fā)生變化。近年來(lái),隨著底層的半導(dǎo)體材料達(dá)到物理極限,縮小晶體管變得更加昂貴。作者發(fā)現(xiàn),在過(guò)去的 25 年中,建立一個(gè)領(lǐng)先的晶圓廠的成本每年增長(zhǎng) 11%。2017 年,半導(dǎo)體行業(yè)協(xié)會(huì)估計(jì)建造一座新工廠需要花費(fèi)約 70 億美元。這不僅增加了芯片制造商的固定成本,半導(dǎo)體制造商的數(shù)量也從 2002 年的 25 家減少到今天的四家:英特爾、臺(tái)積電、三星和格羅方德。
?
?
該團(tuán)隊(duì)還重點(diǎn)介紹了美國(guó)勞工統(tǒng)計(jì)局(BLS)的一份報(bào)告,該報(bào)告試圖量化每美元的微處理器性能,根據(jù)這一指標(biāo),BLS 發(fā)現(xiàn)微處理器的改進(jìn)率從 2000 - 2004 年的 48%下降到 2004 - 2008 年的 29%,而 2008 - 2013 年每年僅為 8%。
所有這些都從根本上改變了縮小晶體管的成本和效益,正如作者所指出的,由于建造和運(yùn)營(yíng)新工廠的費(fèi)用不斷上升,英特爾的固定成本有史以來(lái)第一次超過(guò)其可變成本。更令人不安的是,像三星和高通這樣的公司現(xiàn)在認(rèn)為,在最新工藝節(jié)點(diǎn)上制造的晶體管的成本正在增加,這進(jìn)一步阻礙了對(duì)更小尺寸的追求。這種想法可能是格羅方德最近放棄其 7nm 技術(shù)計(jì)劃決定背后的原因。
不僅僅是摩爾定律惡化的問(wèn)題,專(zhuān)用處理器的另一個(gè)驅(qū)動(dòng)因素是新應(yīng)用程序無(wú)法適用于通用計(jì)算芯片。對(duì)于初學(xué)者來(lái)說(shuō),你擁有移動(dòng)設(shè)備和物聯(lián)網(wǎng)(IoT)這樣的平臺(tái),這些平臺(tái)在能源效率和成本方面要求很高,并且需要大量部署,即使有相對(duì)強(qiáng)大的摩爾定律的支持,也需要定制芯片,而具有更嚴(yán)格要求的低容量應(yīng)用,例如軍用和航空硬件,也需要特殊用途設(shè)計(jì)的支持。但作者認(rèn)為,通過(guò)深度學(xué)習(xí)實(shí)現(xiàn)了行業(yè)真正的分水嶺,深度學(xué)習(xí)是一種跨越幾乎所有計(jì)算環(huán)境的應(yīng)用程序類(lèi)別 - 移動(dòng),桌面,嵌入式,云計(jì)算和超級(jí)計(jì)算。
深度學(xué)習(xí)及其首選硬件平臺(tái) GPU,就是計(jì)算從通用處理器走向?qū)S锰幚砥鞯淖蠲黠@的例子。實(shí)際上半專(zhuān)業(yè)計(jì)算架構(gòu)的 GPU 已經(jīng)成為訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的平臺(tái),因?yàn)樗鼈兡軌虮?CPU 更有效地進(jìn)行數(shù)據(jù)并行處理。作者指出,盡管 GPU 也被用于加速科學(xué)和工程應(yīng)用,但它的深度學(xué)習(xí)將可以被進(jìn)一步專(zhuān)業(yè)化地應(yīng)用于大批量應(yīng)用中。當(dāng)然,這里要排除 GPU 在桌面游戲中已經(jīng)擁有大量應(yīng)用,因?yàn)樽烂嬗螒蚴?GPU 最初設(shè)計(jì)的目的。
但對(duì)于深度學(xué)習(xí),GPU 可能只是入門(mén)級(jí)的工具,英特爾,富士通和十幾家創(chuàng)業(yè)公司已經(jīng)有了人工智能和深度學(xué)習(xí)芯片,谷歌自己的 Tensor 處理單元(TPU)是專(zhuān)門(mén)用于訓(xùn)練和使用神經(jīng)網(wǎng)絡(luò)的,目前已進(jìn)入第三次迭代?!皠?chuàng)建一個(gè)定制的處理器對(duì)谷歌而言非常昂貴,專(zhuān)家估計(jì)固定成本為數(shù)千萬(wàn)美元,”作者寫(xiě)道,“然而,好處也很大 - 他們聲稱(chēng)他們的業(yè)績(jī)?cè)鲩L(zhǎng)相當(dāng)于摩爾定律的七年 - 并且無(wú)需基礎(chǔ)設(shè)施成本使其更加值得去投入?!?/p>
?
Thompson 和 Spanuth 還指出,專(zhuān)用處理器越來(lái)越多地用于超級(jí)計(jì)算,他們提及 2018 年 11 月的超級(jí)計(jì)算機(jī) TOP500 排名,這表明專(zhuān)業(yè)處理器(主要是 Nvidia GPU)而不是 CPU 是第一次負(fù)責(zé)大部分加速性能。作者還對(duì)列表進(jìn)行了回歸分析,結(jié)果顯示具有專(zhuān)用處理器的超級(jí)計(jì)算機(jī)“每瓦特可以執(zhí)行的計(jì)算次數(shù)幾乎是僅使用通用處理器的計(jì)算速度的五倍”,這一結(jié)果非常高具有統(tǒng)計(jì)意義?!?/p>
Thompson 和 Spanuth 提供了一個(gè)數(shù)學(xué)模型,用于確定專(zhuān)業(yè)化的成本 / 收益,同時(shí)考慮到開(kāi)發(fā)定制芯片的固定成本,芯片數(shù)量,定制實(shí)施提供的加速以及處理器改進(jìn)的速度。由于后者與摩爾定律聯(lián)系在一起,因此速度放緩意味著即使預(yù)期的加速比較適中,專(zhuān)用芯片的合理化也會(huì)變得更加容易。
“因此,對(duì)于許多(但不是全部)應(yīng)用,現(xiàn)在獲得專(zhuān)用處理器在經(jīng)濟(jì)上是可行的 - 至少在硬件方面,”作者聲稱(chēng),“另一種看待這種情況的方法是考慮到在 2000 - 2004 年期間,市場(chǎng)規(guī)模約為 83,000 臺(tái)處理器的應(yīng)用程序需要專(zhuān)業(yè)化提供 100 倍的加速才值得,而在 2008 - 2013 年,這樣的處理器只需要 2 倍的加速?!?/p>
Thompson 和 Spanuth 還為專(zhuān)用處理器納入了重新定位應(yīng)用軟件的額外費(fèi)用,他們認(rèn)為每行代碼的價(jià)格為 11 美元。這在一定程度上使模型復(fù)雜化,因?yàn)楸仨毧紤]代碼庫(kù)的大小,這并容易追蹤。在這里,他們還指出,一旦代碼重新開(kāi)發(fā)完成,它往往會(huì)阻止代碼庫(kù)移回通用平臺(tái)。
最重要的是,摩爾定律的緩慢消亡正在揭示過(guò)去的創(chuàng)新,市場(chǎng)擴(kuò)張和再投資的良性循環(huán)。隨著越來(lái)越多的專(zhuān)業(yè)芯片開(kāi)始蠶食計(jì)算機(jī)行業(yè),這個(gè)周期變得支離破碎。由于較少用戶(hù)采用最新的制造節(jié)點(diǎn),為晶圓廠融資變得更加困難,進(jìn)一步減緩了技術(shù)進(jìn)步。這會(huì)將計(jì)算機(jī)行業(yè)分割成專(zhuān)門(mén)領(lǐng)域。
其中一些領(lǐng)域,如深度學(xué)習(xí),由于其規(guī)模和對(duì)專(zhuān)用硬件的適用性,將處于快車(chē)道。然而,像數(shù)據(jù)庫(kù)處理這樣的領(lǐng)域雖然被廣泛使用,可能會(huì)成為“死胡同”,因?yàn)檫@種類(lèi)型的交易計(jì)算并不適合專(zhuān)用芯片,另外,像氣候模型等其他較小的領(lǐng)域,因?yàn)樘《鵁o(wú)法保證自己定制的硬件,盡管它們可以從中受益。
作者預(yù)計(jì),云計(jì)算將在某種程度上通過(guò)為較小和較少照顧的社區(qū)提供各種基礎(chǔ)設(shè)施來(lái)削弱這些差異的影響。越來(lái)越多的可用性更專(zhuān)業(yè)的云資源,如 GPU,FPGA,以及谷歌的 TPU,能夠創(chuàng)造一個(gè)更加平等的競(jìng)爭(zhēng)環(huán)境。
當(dāng)然,這些都不意味著 CPU 甚至 GPU 都是失敗的,盡管作者沒(méi)有深入研究這一方面,但在未來(lái)很可能將專(zhuān)用、半專(zhuān)業(yè)和通用計(jì)算引擎集成在同一芯片或處理器封裝中,一些芯片制造商已經(jīng)開(kāi)始了對(duì)這方面的研究。
例如,Nvidia 在其 Volta 一代 GPU 中采用了 Tensor Cores,這是其專(zhuān)門(mén)用于深度學(xué)習(xí)的專(zhuān)用電路,這樣 Nvidia 就能夠提供一個(gè)既能滿(mǎn)足傳統(tǒng)超級(jí)計(jì)算模擬又能深度學(xué)習(xí)應(yīng)用的平臺(tái)。同樣,CPU 正在與專(zhuān)用邏輯塊集成,用于加密 / 解密、圖形加速、信號(hào)處理,當(dāng)然還有深度學(xué)習(xí),我們期待這種情況會(huì)越來(lái)越多的出現(xiàn)。
完整論文請(qǐng)查看:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3287769
與非網(wǎng)編譯內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載!