欧美亚洲一区中字幕在线,午夜无码伦费影视在线观看

作為技術(shù)類的公眾號(hào)，今天這篇文章，我們聊點(diǎn)技術(shù)之外的一些更宏觀的發(fā)展話題：

最近跟一個(gè)朋友，交流了一些不那么“純技術(shù)”的話題：后進(jìn)如何趕超先進(jìn)？在交流的過(guò)程中，也引發(fā)了我對(duì)技術(shù)發(fā)展的一些更深層次的思考。

關(guān)于后進(jìn)趕超先進(jìn)，網(wǎng)上有太多的文章和視頻。作為常年從事計(jì)算機(jī)算力芯片相關(guān)工作的我，今天就從算力芯片這個(gè)視角出發(fā)，談?wù)剬?duì)國(guó)內(nèi)算力芯片如何實(shí)現(xiàn)突圍的個(gè)人的一些看法。

1 成熟賽道，后進(jìn)趕超先進(jìn)，很難

1.1 CPU的江湖恩仇

上世紀(jì)70年代，Intel發(fā)明了CPU。通過(guò)對(duì)CPU的持續(xù)投入，Intel逐漸獲得了市場(chǎng)的優(yōu)勢(shì)，并逐漸構(gòu)建起了自己的x86生態(tài)，這包括外圍的硬件合作伙伴、BIOS等固件開(kāi)發(fā)、操作系統(tǒng)軟件、工具鏈以及應(yīng)用軟件生態(tài)等等。

RISC是一個(gè)失敗的例子。X86是CISC架構(gòu)，隨著CISC指令的復(fù)雜度越來(lái)越高，越來(lái)越難以控制，RISC架構(gòu)逐漸興起。RISC架構(gòu)處理器提倡簡(jiǎn)化指令集設(shè)計(jì)、固定指令長(zhǎng)度、統(tǒng)一指令編碼格式、加速常用指令。RISC架構(gòu)成為很多處理器的首選，并且也成為了許多計(jì)算機(jī)教材的經(jīng)典CPU設(shè)計(jì)案例。但即便如此，在市場(chǎng)競(jìng)爭(zhēng)上，RISC架構(gòu)仍然輸給了CISC。

安騰是Intel自己的一個(gè)失敗的例子。安騰是Intel于2001年推出的64位架構(gòu)的CPU處理器。雖然是Intel的親兒子，雖然是功能強(qiáng)大的64位CPU架構(gòu)，雖然安騰的架構(gòu)和微架構(gòu)設(shè)計(jì)非常優(yōu)秀，但因?yàn)榘豺v和x86的不兼容，完全一個(gè)新的生態(tài)，也不可避免的走向了失敗。最后成就了AMD64的成功。

ARM的成功，更多源于商業(yè)模式。最開(kāi)始，ARM自研的處理器性能都非常差，其自研的處理器性能通常是低于一些巨頭客戶自研的ARM架構(gòu)CPU。但因?yàn)锳RM是一個(gè)中立的CPU架構(gòu)和IP供應(yīng)商，很多巨頭愿意扶持著它向前邁進(jìn)。最后在智能手機(jī)時(shí)代，ARM大獲成功。有了資金實(shí)力之后，ARM后續(xù)CPU的性能才逐漸趕上并且部分超越了自己的巨頭客戶。

RISC-v，后起之秀，明日之星，未來(lái)可能的成功也是依賴于更優(yōu)的商業(yè)模式。跟ARM當(dāng)年的處境類似，目前的RISCv性能和生態(tài)都要弱于x86和ARM，但因?yàn)楦鼉?yōu)的商業(yè)模式（完全開(kāi)源開(kāi)放的，并且得到廣泛共識(shí)的免費(fèi)的處理器），其發(fā)展也是相當(dāng)迅猛。

1.2 NVIDIA，從十年磨一劍到市值萬(wàn)億

傳統(tǒng)的GPU是圖形加速卡，本質(zhì)上是眾多各種領(lǐng)域各種場(chǎng)景加速卡中的一員。除了GPU之外，其他眾多的各類加速卡，幾乎沒(méi)有成功的案例。GPU之所以最終成功，來(lái)自于00年代NVIDIA的轉(zhuǎn)型：一方面，是GPU從傳統(tǒng)的圖像加速卡，改造成面向并行計(jì)算的GPGPU；此外，為了降低開(kāi)發(fā)的門(mén)檻，把更多的資源投向了CUDA，并且對(duì)外宣稱自己是一家軟件公司。

即便策略正確，最終的成功驗(yàn)證也差不多是十年之后。CUDA的最早期版本是在2005年前后發(fā)布的，直到2012年深度學(xué)習(xí)的崛起，GPU才開(kāi)始真正脫穎而出，也直到2018年大模型興起，以及2013年ChatGPT的火爆，才把NVIDIA推上了最高的神壇。

1.3 簡(jiǎn)單總結(jié)

經(jīng)常有企業(yè)喊出口號(hào)是“要做中國(guó)的xxx”，但“學(xué)我者生，像我者死”，芯片是一個(gè)國(guó)際化的市場(chǎng)，全球競(jìng)爭(zhēng)，這樣亦步亦趨的學(xué)習(xí)巨頭企業(yè)的做法，無(wú)異于“邯鄲學(xué)步”。

在成熟的賽道，后進(jìn)如果靠模仿先進(jìn)前進(jìn)，那必然無(wú)法成功。后進(jìn)需要有差異化，有創(chuàng)新，有優(yōu)勢(shì)，才有可能成功。并且，后進(jìn)要想成功，其難度遠(yuǎn)高于先進(jìn)者當(dāng)年的難度。

2 技術(shù)的變革，是后進(jìn)趕超先進(jìn)的關(guān)鍵時(shí)機(jī)

國(guó)產(chǎn)新能源汽車，是后進(jìn)趕超先進(jìn)的經(jīng)典案例。據(jù)中國(guó)汽車工業(yè)協(xié)會(huì)整理的海關(guān)總署數(shù)據(jù)顯示，2023年上半年，汽車整車出口234.1萬(wàn)輛，同比增長(zhǎng)76.9%；1～7月，汽車出口總值3837.3億元，增長(zhǎng)118.5%。中國(guó)汽車出口首次超過(guò)日本，躍居世界首位。新能源汽車是中國(guó)汽車出口的核心增長(zhǎng)點(diǎn)。2023年1～6月出口新能源車80萬(wàn)輛，同比增長(zhǎng)105%。

在成熟賽道，具有技術(shù)優(yōu)勢(shì)、市場(chǎng)優(yōu)勢(shì)、專利優(yōu)勢(shì)、品牌優(yōu)勢(shì)等等，后進(jìn)趕超先進(jìn)很難。但如果是技術(shù)的變革期，后進(jìn)就可以在新的技術(shù)領(lǐng)域提前布局，讓雙方站在同一個(gè)起跑線，以此來(lái)獲得“公平”競(jìng)技的機(jī)會(huì)，從而有可能實(shí)現(xiàn)超越。國(guó)產(chǎn)汽車，就是抓住了新能源和智能汽車這一波浪潮，迅速地達(dá)到了汽車出口量全球第一。

那么，芯片的變革機(jī)會(huì)在哪里？

3 AGI大模型的挑戰(zhàn)

2023年初的AI大模型，“不約而同”的參數(shù)規(guī)模停留在千億級(jí)，為什么？

核心的原因在于，這是目前的GPU計(jì)算集群所能支撐的算力上限：

一方面，單芯片算力已經(jīng)瓶頸，算力增長(zhǎng)極度緩慢。

另一方面，受限于目前的服務(wù)器以CPU為中心的架構(gòu)約束，以及網(wǎng)絡(luò)的交互效率所限，集群規(guī)模也已經(jīng)達(dá)到了上限。

還有一個(gè)很重要的原因，就是算力的建設(shè)和運(yùn)營(yíng)成本，也已經(jīng)達(dá)到了一個(gè)天文數(shù)字。

目前CPU性能早已瓶頸，GPU性能即將見(jiàn)頂并且成本高昂，而AI芯片太過(guò)于專用，不適用于快速變化的模型算法/算子和業(yè)務(wù)邏輯。

如何解決？我們也可以給一個(gè)簡(jiǎn)單的答案：

一方面，持續(xù)不斷的Scale up，通過(guò)更多的處理器內(nèi)聚，數(shù)量級(jí)的提升單芯片的性能；

另一方面，持續(xù)不斷地增強(qiáng)芯片的內(nèi)部交互（打破已有的以CPU為中心的價(jià)格）和外部交互（增強(qiáng)高性能網(wǎng)絡(luò)）。數(shù)量級(jí)的提升集群中服務(wù)器的數(shù)量。

此外，大芯片需要通用。能否實(shí)現(xiàn)足夠的通用性，是大芯片能夠大規(guī)模落地的最重要因素。

還有一個(gè)很重要的，要通過(guò)一些機(jī)制，數(shù)量級(jí)的降低算力的成本。

4 芯片工藝的快速進(jìn)步

工藝持續(xù)進(jìn)步，Chiplet先進(jìn)封裝也越來(lái)越成熟。從2D的工藝到3D的封裝再到Chiplet的4D封裝，芯片的底層實(shí)現(xiàn)技術(shù)仍在快速發(fā)展。

目前的大算力芯片，通常在500億晶體管左右。Intel的規(guī)劃是在2030年，達(dá)到1萬(wàn)億晶體管。這意味著，相比目前的芯片，計(jì)算規(guī)模再提升20倍。

如此大規(guī)模的晶體管資源，我們?cè)撊绾胃玫乩茫?/p>

5 算力芯片變革的歷史機(jī)遇

5.1 系統(tǒng)架構(gòu)創(chuàng)新

一方面是需求牽引，一方面是工藝支撐，兩方面的因素，都需要我們?cè)谙到y(tǒng)架構(gòu)層次，做更多的創(chuàng)新。

從單核到多核、從同構(gòu)到異構(gòu)，從單異構(gòu)到多異構(gòu)，再?gòu)亩喈悩?gòu)到異構(gòu)融合，是一個(gè)計(jì)算架構(gòu)從簡(jiǎn)單到復(fù)雜的繼承并發(fā)展的過(guò)程。

芯片設(shè)計(jì)規(guī)模越來(lái)越大，單芯片集成更多架構(gòu)的處理器成為一種非常常見(jiàn)的設(shè)計(jì)。這種多異構(gòu)混合計(jì)算架構(gòu)，Intel稱為超異構(gòu)計(jì)算。在2023年9月份發(fā)布的《異構(gòu)融合計(jì)算技術(shù)白皮書(shū)》中，采用了更嚴(yán)謹(jǐn)更準(zhǔn)確的一種叫法，“異構(gòu)融合計(jì)算”。深刻揭示了多異構(gòu)混合計(jì)算的關(guān)鍵，在于異構(gòu)處理器之間的協(xié)同和融合。

5.2 大芯片如何能夠通用？

系統(tǒng)規(guī)模越來(lái)越大，變化越來(lái)越快，從而使得在大算力芯片，通用性比性能更重要。而定制的加速算力芯片覆蓋場(chǎng)景少，生命周期短，難以大規(guī)模落地。

此外，相比專用，通用是更高級(jí)的能力。通用計(jì)算，需要從眾多需求中提煉和拆解出通用的部分和組件，通過(guò)軟件編程，靈活地組合出用戶所需的形形色色的功能。并且還要實(shí)現(xiàn)性能和靈活性的兼顧。

那么，如何實(shí)現(xiàn)通用？能夠通用的本質(zhì)原因是什么？

系統(tǒng)規(guī)模越大，“二八定律”特征越明顯。這樣，我們可以把確定性的共性的部分硬件加速實(shí)現(xiàn)，相對(duì)不確定的個(gè)性的部分通過(guò)軟件編程實(shí)現(xiàn)。

在六代計(jì)算架構(gòu)的基礎(chǔ)上，增加“通用”約束，變成三代通用計(jì)算架構(gòu)：

第一代單核和第二代多核合并成CPU同構(gòu)。

取消專用的DSA異構(gòu)計(jì)算階段，異構(gòu)計(jì)算僅保留GPU的通用異構(gòu)。

多異構(gòu)要想成功，就需要融合；異構(gòu)融合要想成功，就需要通用。因此，從終局思維思考，最終可落地的方案，會(huì)是通用的異構(gòu)融合計(jì)算。

5.3?從單兵作戰(zhàn)到團(tuán)隊(duì)協(xié)作

受限于先進(jìn)工藝，我們無(wú)法實(shí)現(xiàn)最強(qiáng)算力的芯片。但我們可以通過(guò)更多資源的協(xié)作，來(lái)實(shí)現(xiàn)更強(qiáng)的群體智能：

方法一，異構(gòu)融合。通過(guò)異構(gòu)融合的計(jì)算架構(gòu)創(chuàng)新，實(shí)現(xiàn)更多處理器核心的協(xié)同和融合。可以在工藝落后1-2代的情況下，實(shí)現(xiàn)單個(gè)芯片的算力更優(yōu)。

方法二，算力網(wǎng)絡(luò)。通過(guò)算力網(wǎng)絡(luò)、東數(shù)西算，實(shí)現(xiàn)跨集群的算力調(diào)度和算力協(xié)同，可以實(shí)現(xiàn)算力資源的高效利用。

方法三，智能網(wǎng)聯(lián)。通過(guò)終端的智能網(wǎng)聯(lián)，實(shí)現(xiàn)云端協(xié)同。清華的院士提出的智能網(wǎng)聯(lián)汽車中國(guó)方案，強(qiáng)調(diào)車（終端）、路（MEC接入）、邊、云的深度協(xié)同，在單體算力有限的情況下，可以實(shí)現(xiàn)更智能化的用戶服務(wù)體驗(yàn)。

方法四，云網(wǎng)邊端融合。更龐大算力節(jié)點(diǎn)，更高性能更低延遲的網(wǎng)絡(luò)，更強(qiáng)大的算力基礎(chǔ)設(shè)施，實(shí)現(xiàn)更強(qiáng)大的宏觀數(shù)字系統(tǒng)。

5.4 總結(jié)

從異構(gòu)到異構(gòu)融合計(jì)算，計(jì)算架構(gòu)的變革，給了我們“彎道超車”的時(shí)機(jī)；歷史機(jī)遇稍縱即逝，需要快馬加鞭，加大投入。

抓住計(jì)算架構(gòu)變革的歷史時(shí)機(jī)，實(shí)現(xiàn)算力芯片的彎道超車！??

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
MKL02Z32VFG4R	1	Freescale Semiconductor	RISC MICROCONTROLLER	ECAD模型下載ECAD模型	暫無(wú)數(shù)據(jù)	查看
MCF52258CAG66	1	Rochester Electronics LLC	32-BIT, FLASH, 66MHz, RISC MICROCONTROLLER, PQFP144, 20 X 20 MM, ROHS COMPLIANT, LQFP-144		$12.68	查看
STM32F030C8T6	1	STMicroelectronics	Mainstream Arm Cortex-M0 Value line MCU with 64 Kbytes of Flash memory, 48 MHz CPU	ECAD模型下載ECAD模型	$3.22	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

MKL02Z32VFG4R

Freescale Semiconductor

RISC MICROCONTROLLER

暫無(wú)數(shù)據(jù)

查看

MCF52258CAG66

Rochester Electronics LLC

32-BIT, FLASH, 66MHz, RISC MICROCONTROLLER, PQFP144, 20 X 20 MM, ROHS COMPLIANT, LQFP-144

$12.68

查看

STM32F030C8T6

STMicroelectronics

Mainstream Arm Cortex-M0 Value line MCU with 64 Kbytes of Flash memory, 48 MHz CPU

$3.22

查看

算力芯片，如何突圍？