免费少妇A级毛片熟女人妻,免费叼嘿视频

作者：何律衡? 編輯：李墨天

英偉達(dá)最新季度財(cái)報(bào)公布后，不僅AMD沉默英特爾流淚，做過(guò)長(zhǎng)時(shí)間心理建設(shè)的分析師也沒(méi)想到真實(shí)情況如此超預(yù)期。

更可怕的是，英偉達(dá)同比暴漲854%的收入，很大程度上是因?yàn)椤爸荒苜u這么多”，而不是“賣出去了這么多”。一大堆“初創(chuàng)公司拿H100抵押貸款”的小作文背后，反應(yīng)的是H100 GPU供應(yīng)緊張的事實(shí)。

如果缺貨繼續(xù)延續(xù)到今年年底，英偉達(dá)的業(yè)績(jī)恐怕會(huì)更加震撼。

H100的短缺不禁讓人想起幾年前，GPU因?yàn)榧用茇泿疟q導(dǎo)致缺貨，英偉達(dá)被游戲玩家罵得狗血淋頭。不過(guò)當(dāng)年的顯卡缺貨很大程度上是因?yàn)椴缓侠淼囊鐑r(jià)，H100的缺貨卻是產(chǎn)能實(shí)在有限，加價(jià)也買不到。

換句話說(shuō)，英偉達(dá)還是賺少了。

在財(cái)報(bào)發(fā)布當(dāng)天的電話會(huì)議上，“產(chǎn)能”理所當(dāng)然地成為了最高頻詞匯。對(duì)此，英偉達(dá)措辭嚴(yán)謹(jǐn)，不該背的鍋堅(jiān)決不背：“市場(chǎng)份額方面，不是僅靠我們就可以獲得的，這需要跨越許多不同的供應(yīng)商?！?/p>

實(shí)際上，英偉達(dá)所說(shuō)的“許多不同的供應(yīng)商”，算來(lái)算去也就兩家：SK海力士和臺(tái)積電。

HBM：韓國(guó)人的游戲

如果只看面積占比，一顆H100芯片，屬于英偉達(dá)的部分只有50%左右。

在芯片剖面圖中，H100裸片占據(jù)核心位置，兩邊各有三個(gè)HBM堆棧，加起面積與H100裸片相當(dāng)。

這六顆平平無(wú)奇的內(nèi)存芯片，就是H100供應(yīng)短缺的罪魁禍?zhǔn)字弧?/strong>

HBM（High Bandwidth Memory）直譯過(guò)來(lái)叫高寬帶內(nèi)存，在GPU中承擔(dān)一部分存儲(chǔ)器之職。

和傳統(tǒng)的DDR內(nèi)存不同，HBM本質(zhì)上是將多個(gè)DRAM內(nèi)存在垂直方向堆疊，這樣既增加了內(nèi)存容量，又能很好的控制內(nèi)存的功耗和芯片面積，減少在封裝內(nèi)部占用的空間。

“堆疊式內(nèi)存”原本瞄準(zhǔn)的是對(duì)芯片面積和發(fā)熱非常敏感的智能手機(jī)市場(chǎng)，但問(wèn)題是，由于生產(chǎn)成本太高，智能手機(jī)最終選擇了性價(jià)比更高的LPDDR路線，導(dǎo)致堆疊式內(nèi)存空有技術(shù)儲(chǔ)備，卻找不到落地場(chǎng)景。

直到2015年，市場(chǎng)份額節(jié)節(jié)敗退的AMD希望借助4K游戲的普及，抄一波英偉達(dá)的后路。

在當(dāng)年發(fā)布的AMD Fiji系列GPU中，AMD采用了與SK海力士聯(lián)合研發(fā)的堆疊式內(nèi)存，并將其命名為HBM（High Bandwidth Memory）。

AMD的設(shè)想是，4K游戲需要更大的數(shù)據(jù)吞吐效率，HBM內(nèi)存高帶寬的優(yōu)勢(shì)就能體現(xiàn)出來(lái)。當(dāng)時(shí)AMD的Radeon R9 Fury X顯卡，也的確在紙面性能上壓了英偉達(dá)Kepler架構(gòu)新品一頭。

但問(wèn)題是，HBM帶來(lái)的帶寬提升，顯然難以抵消其本身的高成本，因此也未得到普及。

直到2016年，AlphaGo橫掃冠軍棋手李世石，深度學(xué)習(xí)橫空出世，讓HBM內(nèi)存一下有了用武之地。

深度學(xué)習(xí)的核心在于通過(guò)海量數(shù)據(jù)訓(xùn)練模型，確定函數(shù)中的參數(shù)，在決策中帶入實(shí)際數(shù)據(jù)得到最終的解。

理論上來(lái)說(shuō)，數(shù)據(jù)量越大得到的函數(shù)參數(shù)越可靠，這就讓AI訓(xùn)練對(duì)數(shù)據(jù)吞吐量及數(shù)據(jù)傳輸的延遲性有了一種近乎病態(tài)的追求，而這恰恰是HBM內(nèi)存解決的問(wèn)題。

2017年，AlphaGo再戰(zhàn)柯潔，芯片換成了Google自家研發(fā)的TPU。在芯片設(shè)計(jì)上，從第二代開(kāi)始的每一代TPU，都采用了HBM的設(shè)計(jì)。英偉達(dá)針對(duì)數(shù)據(jù)中心和深度學(xué)習(xí)的新款GPU Tesla P100，搭載了第二代HBM內(nèi)存（HBM2）。

隨著高性能計(jì)算市場(chǎng)的GPU芯片幾乎都配備了HBM內(nèi)存，存儲(chǔ)巨頭們圍繞HBM的競(jìng)爭(zhēng)也迅速展開(kāi)。

目前，全球能夠量產(chǎn)HBM的僅有存儲(chǔ)器三大巨頭：SK海力士、三星電子、美光。

SK海力士是HBM發(fā)明者之一，是目前唯一量產(chǎn)HBM3E（第三代HBM）的廠商；三星電子以HBM2（第二代HBM）入局，是英偉達(dá)首款采用HBM的GPU的供應(yīng)商；美光最落后，2018年才從HMC轉(zhuǎn)向HBM路線，2020年年中才開(kāi)始量產(chǎn)HBM2。

其中，SK海力士獨(dú)占HBM 50%市場(chǎng)份額，而其獨(dú)家供應(yīng)給英偉達(dá)的HBM3E，更是牢牢卡住了H100的出貨量：

H100 PCIe和SXM版本均用了5個(gè)HBM堆棧，H100S SXM版本可達(dá)到6個(gè)，英偉達(dá)力推的H100 NVL版本更是達(dá)到了12個(gè)。按照研究機(jī)構(gòu)的拆解，單顆16GB的HBM堆棧，成本就高達(dá)240美元。那么H100 NVL單單內(nèi)存芯片的成本，就將近3000美元。

成本還是小問(wèn)題，考慮到與H100直接競(jìng)爭(zhēng)的谷歌TPU v5和AMD MI300即將量產(chǎn)，后兩者同樣將采用HBM3E，陳能更加捉襟見(jiàn)肘。

面對(duì)激增的需求，據(jù)說(shuō)SK海力士已定下產(chǎn)能翻番的小目標(biāo)，著手?jǐn)U建產(chǎn)線，三星和美光也對(duì)HBM3E摩拳擦掌，但在半導(dǎo)體產(chǎn)業(yè)，擴(kuò)建產(chǎn)線從來(lái)不是一蹴而就的。

按照9-12個(gè)月的周期樂(lè)觀預(yù)計(jì)，HBM3E產(chǎn)能至少也得到明年第二季度才能得到補(bǔ)充。

另外，就算解決了HBM的產(chǎn)能，H100能供應(yīng)多少，還得看臺(tái)積電的臉色。

CoWoS：臺(tái)積電的寶刀

分析師Robert Castellano不久前做了一個(gè)測(cè)算，H100采用了臺(tái)積電4N工藝（5nm）生產(chǎn)，一片4N工藝的12寸晶圓價(jià)格為13400美元，理論上可以切割86顆H100芯片。

如果不考慮生產(chǎn)良率，那么每生產(chǎn)一顆H100，臺(tái)積電就能獲得155美元的收入[6]。

但實(shí)際上，每顆H100給臺(tái)積電帶來(lái)的收入很可能超過(guò)1000美元，原因就在于H100采用了臺(tái)積電的CoWoS封裝技術(shù)，通過(guò)封裝帶來(lái)的收入高達(dá)723美元[6]。

每一顆H100從臺(tái)積電十八廠的N4/N5產(chǎn)線上下來(lái)，都會(huì)運(yùn)往同在園區(qū)內(nèi)的臺(tái)積電先進(jìn)封測(cè)二廠，完成H100制造中最為特別、也至關(guān)重要的一步——CoWoS。

要理解CoWoS封裝的重要性，依然要從H100的芯片設(shè)計(jì)講起。

在消費(fèi)級(jí)GPU產(chǎn)品中，內(nèi)存芯片一般都封裝在GPU核心的外圍，通過(guò)PCB板之間的電路傳遞信號(hào)。

比如下圖中同屬英偉達(dá)出品的RTX4090芯片，GPU核心和GDDR內(nèi)存都是分開(kāi)封裝再拼到一塊PCB板上，彼此獨(dú)立。

GPU和CPU都遵循著馮·諾依曼架構(gòu)，其核心在于“存算分離”——即芯片處理數(shù)據(jù)時(shí)，需要從外部的內(nèi)存中調(diào)取數(shù)據(jù)，計(jì)算完成后再傳輸?shù)絻?nèi)存中，一來(lái)一回，都會(huì)造成計(jì)算的延遲。同時(shí)，數(shù)據(jù)傳輸?shù)摹皵?shù)量”也會(huì)因此受限制。

可以將GPU和內(nèi)存的關(guān)系比作上海的浦東和浦西，兩地間的物資（數(shù)據(jù)）運(yùn)輸需要依賴南浦大橋，南浦大橋的運(yùn)載量決定了物資運(yùn)輸?shù)男?，這個(gè)運(yùn)載量就是內(nèi)存帶寬，它決定了數(shù)據(jù)傳輸?shù)乃俣?，也間接影響著GPU的計(jì)算速度。

1980年到2000年，GPU和內(nèi)存的“速度失配”以每年50%的速率增加。也就是說(shuō)，就算修了龍耀路隧道和上中路隧道，也無(wú)法滿足浦東浦西兩地物資運(yùn)輸?shù)脑鲩L(zhǎng)，這就導(dǎo)致高性能計(jì)算場(chǎng)景下，帶寬成為了越來(lái)越明顯的瓶頸。

CPU/GPU性能與內(nèi)存性能之間的差距正在拉大

2015年，AMD在應(yīng)用HBM內(nèi)存的同時(shí)，也針對(duì)數(shù)據(jù)傳輸采用了一種創(chuàng)新的解決方案：把浦東和浦西拼起來(lái)。

簡(jiǎn)單來(lái)說(shuō)，2015年的Fiji架構(gòu)顯卡，將HBM內(nèi)存和GPU核心“縫合”在了一起，把幾塊小芯片變成了一整塊大芯片。這樣，數(shù)據(jù)吞吐效率就成倍提高。

不過(guò)如上文所述，由于成本和技術(shù)問(wèn)題，AMD的Fiji架構(gòu)并沒(méi)有讓市場(chǎng)買賬。但深度學(xué)習(xí)的爆發(fā)以及AI訓(xùn)練對(duì)數(shù)據(jù)吞吐效率不計(jì)成本的追求，讓“芯片縫合”有了用武之地。

另外，AMD的思路固然好，但也帶來(lái)了一個(gè)新問(wèn)題——無(wú)論HBM有多少優(yōu)勢(shì)，它都必須和“縫芯片”的先進(jìn)封裝技術(shù)配合，兩者唇齒相依。

如果說(shuō)HBM內(nèi)存還能貨比三家，那么“縫芯片”所用的先進(jìn)封裝，看來(lái)看去就只有臺(tái)積電一家能做。

CoWoS是臺(tái)積電先進(jìn)封裝事業(yè)的起點(diǎn)，英偉達(dá)則是第一個(gè)采用這一技術(shù)的芯片公司。

CoWoS由CoW和oS組合而來(lái)：CoW表示Chip on Wafer，指裸片在晶圓上被拼裝的過(guò)程，oS表示on?Substrate，指在基板上被封裝的過(guò)程。

傳統(tǒng)封裝一般只有oS環(huán)節(jié)，一般在代工廠完成晶圓制造后，交給第三方封測(cè)廠解決，但先進(jìn)封裝增加的CoW環(huán)節(jié)，就不是封測(cè)廠能解決的了的。

以一顆完整的H100芯片為例，H100的裸片周圍分布了多個(gè)HBM堆棧，通過(guò)CoW技術(shù)拼接在一起。但不只是拼接而已，還要同時(shí)實(shí)現(xiàn)裸片和堆棧間的通信。

臺(tái)積電的CoW區(qū)別于其他先進(jìn)封裝的亮點(diǎn)在于，是將裸片和堆棧放在一個(gè)硅中介層（本質(zhì)是一塊晶圓）上，在中介層中做互聯(lián)通道，實(shí)現(xiàn)裸片和堆棧的通信。

類似的還有英特爾的EMIB，區(qū)別在于通過(guò)硅橋?qū)崿F(xiàn)互聯(lián)。但帶寬遠(yuǎn)不及硅中介層，考慮到帶寬與數(shù)據(jù)傳輸速率息息相關(guān)，CoWoS便成了H100的唯一選擇。

這便是卡住H100產(chǎn)能的另一只手。

雖然CoWoS效果逆天，但4000-6000美元/片的天價(jià)還是攔住了不少人，其中就包括富可敵國(guó)的蘋(píng)果。因此，臺(tái)積電預(yù)備的產(chǎn)能相當(dāng)有限。

然而，AI浪潮突然爆發(fā)，供需平衡瞬間被打破。

早在6月就有傳言稱，今年英偉達(dá)對(duì)CoWoS的需求已經(jīng)達(dá)到4.5萬(wàn)片晶圓，而臺(tái)積電年初的預(yù)估是3萬(wàn)片，再加上其他客戶的需求，產(chǎn)能缺口超過(guò)了20%。

為了彌補(bǔ)缺口，臺(tái)積電的陣仗不可謂不大。

6月，臺(tái)積電正式啟用同在南科的先進(jìn)封測(cè)六廠，光無(wú)塵室就比其余封測(cè)廠的加起來(lái)還大，并承諾逐季增加CoWoS產(chǎn)能，為此將部分oS外包給第三方封測(cè)廠。

但正如HBM擴(kuò)產(chǎn)不易，臺(tái)積電擴(kuò)產(chǎn)也需要時(shí)間。目前，部分封裝設(shè)備、零組件交期在3-6個(gè)月不等，到年底前，新產(chǎn)能能開(kāi)出多少仍是未知。

不存在的Plan B

面對(duì)H100的結(jié)構(gòu)性緊缺，英偉達(dá)也不是完全沒(méi)有Plan B。

在財(cái)報(bào)發(fā)布后的電話會(huì)議上，英偉達(dá)就透露，CoWoS產(chǎn)能已經(jīng)有其他供應(yīng)商參與認(rèn)證。雖然沒(méi)說(shuō)具體是誰(shuí)，但考慮到先進(jìn)封裝的技術(shù)門檻，除了臺(tái)積電，也就只有英特爾先天不足的EMIB、三星開(kāi)發(fā)了很久一直等不來(lái)客戶的I-Cube能勉強(qiáng)救火。

但核心技術(shù)更換如同陣前換將，隨著AMD MI300即將量產(chǎn)出貨，AI芯片競(jìng)爭(zhēng)白熱化，是否能和英特爾和三星的技術(shù)磨合到位，恐怕黃仁勛自己心理也是惴惴。

比黃仁勛更著急的可能是買不到H100的云服務(wù)廠商與AI初創(chuàng)公司。畢竟游戲玩家搶不到顯卡，也就是游戲幀數(shù)少了20幀；大公司搶不到H100，很可能就丟掉了幾十億的收入和上百億的估值。

需要H100的公司主要有三類：微軟、亞馬遜這類云服務(wù)商；Anthropic、OpenAI這些初創(chuàng)公司；以及特斯拉這類大型科技公司，特斯拉的新版本FSD方案就用了10000塊H100組成的GPU集群來(lái)訓(xùn)練

這還沒(méi)算上Citadel這類金融公司，以及買不到特供版H800的中國(guó)公司。

根據(jù)GPU?Utils的測(cè)算[7]，保守估計(jì)，目前H100的供給缺口達(dá)到43萬(wàn)張。

雖然H100存在理論上的替代方案，但在實(shí)際情況下都缺乏可行性。

比如H100的前代產(chǎn)品A100，價(jià)格只有H100的1/3左右。但問(wèn)題是，H100的性能比A100強(qiáng)了太多，導(dǎo)致H100單位成本的算力比A100高。考慮到科技公司都是成百上千張起購(gòu)，買A100反而更虧。

AMD是另一個(gè)替代方案，而且紙面性能和H100相差無(wú)幾。但由于英偉達(dá)CUDA生態(tài)的壁壘，采用AMD的GPU很可能讓開(kāi)發(fā)周期變得更長(zhǎng)，而采用H100的競(jìng)爭(zhēng)對(duì)手很可能就因?yàn)檫@點(diǎn)時(shí)間差，和自己拉開(kāi)了差距，甚至上億美元的投資血本無(wú)歸。

種種原因?qū)е拢活w整體物料成本3000美元的芯片，英偉達(dá)直接加個(gè)零賣，大家居然都搶著買。這可能是黃仁勛自己也沒(méi)想到的。

而在HBM與CoWoS產(chǎn)能改善之前，買到H100的方法可能就只剩下了一種：

等那些靠吹牛逼融到錢買了一堆H100的初創(chuàng)公司破產(chǎn)，然后接盤他們的二手GPU。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
AT90CAN128-16MU	1	Atmel Corporation	RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 16MHz, CMOS, GREEN, MO-220VMMD3, QFN-64	ECAD模型下載ECAD模型	$7.93	查看
ATXMEGA32A4U-AU	1	Microchip Technology Inc	IC MCU 8BIT 32KB FLASH 44TQFP	ECAD模型下載ECAD模型	$3.78	查看
ATXMEGA128A4U-MHR	1	Atmel Corporation	RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQCC44, 7 X 7 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VKKD-3, VQFN-44		$4.48	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

AT90CAN128-16MU

Atmel Corporation

RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 16MHz, CMOS, GREEN, MO-220VMMD3, QFN-64