英特爾在深度學(xué)習(xí)領(lǐng)域的推進(jìn)催生了各種新型架構(gòu),還包括 tile、先進(jìn)封裝和更加定制化的解決方案。
近日,英特爾人工智能產(chǎn)品事業(yè)部副總裁 Gadi Singer 接受了媒體訪談,談?wù)摿擞⑻貭栐谏疃葘W(xué)習(xí)領(lǐng)域的長期愿景,以及為什么公司看好 x86 之外的架構(gòu)和單芯片解決方案。
記者:處理器方面有什么變化?
Singer:最大的變化是增加了深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)。過去幾年,人工智能帶來了快速且深刻的變化,我們也正在試圖評估它們的潛力,以及能用它做些什么。但是,與此同時,您還需要退后一步,思考如何與其它互補(bǔ)性的功能相適應(yīng)。處理器的變化是英特爾整體轉(zhuǎn)型大略的一部分。
英特爾人工智能產(chǎn)品事業(yè)部副總裁 Gadi Singer
記者:真正人工智能的標(biāo)志是可以用機(jī)器開發(fā)算法而不是人工開發(fā)對吧?
Singer:人工智能起步于 20 世紀(jì) 60 年代,直到計算機(jī)科學(xué)家 Hinton 和其他人在 21 世紀(jì)初找到一種更好的方法有效處理多層數(shù)據(jù)之前,它一直處于沉寂狀態(tài)。幾年前,ImageNet 的工作表明可以通過機(jī)器進(jìn)行圖像識別且達(dá)到接近于人的識別精度,人們才意識到深度學(xué)習(xí)是一種重要的計算力量,人工智能至此取得了重大突破。之后,我們在語音識別方面也取得了很好的成果。2015 年到 2016 年左右,深度學(xué)習(xí)的一系列成果表明,人工智能成為推動人類科技進(jìn)步的重大因素。當(dāng)時能夠處理的圖像都是相對簡單的二維圖像,可以識別的語音也簡單直接。之后,業(yè)界的一系列努力證明了可以通過深度學(xué)習(xí)達(dá)到一定的精度,取得一系列成果。當(dāng)時創(chuàng)建和驗證模型的主要架構(gòu)是 CPU 和 GPU,主要開發(fā)語言是 C++,開發(fā)環(huán)境是 CUDA 等專有環(huán)境。構(gòu)建并部署計算架構(gòu)需要大量的專業(yè)知識并投入大量精力。你看看現(xiàn)在這個領(lǐng)域的主要技術(shù),就可以看出哪些公司是早期的參與者。
記者:從那以后發(fā)生了什么變化?
Singer:在過去的幾年中,深度學(xué)習(xí)時代迎面而來。數(shù)據(jù)本身變得更加復(fù)雜了,我們也從識別 2D 圖像成功轉(zhuǎn)變?yōu)樽R別 3D 圖像。我們正在和諾華公司合作,它們正在研究細(xì)胞的 3D 顯微圖像,以試圖找出潛在的惡性細(xì)胞。在數(shù)據(jù)方面,圖像的復(fù)雜程度提升了 25 倍,但是現(xiàn)在識別的是更加精確的模型。
記者:英特爾在這些架構(gòu)的哪些方面發(fā)力?人工智能和深度學(xué)習(xí)的一大問題在于它們還在快速變化之中,因此您需要一個非常靈活的架構(gòu),英特爾在這方面有什么計劃?
Singer:過去面對的問題很清楚。你知道兩三年后的圖形芯片或者 CPU 芯片需要實現(xiàn)什么功能,公司之間的競爭體現(xiàn)在為已知問題提供最佳解決方案上。在深度學(xué)習(xí)領(lǐng)域的競爭則體現(xiàn)在誰能夠在發(fā)展變化過程中最深刻地理解問題。你需要的是一個能夠理解并預(yù)見變化趨勢的架構(gòu),并在全面生產(chǎn)上市和部署時為即將面臨的問題做好準(zhǔn)備,而不是在設(shè)計和測試時就固定好了能夠解決的問題。
記者:架構(gòu)會因市場而改變,還是架構(gòu)仍然相同?
Singer:這影響到方方面面。我們認(rèn)為,一種架構(gòu)不可能滿足所有需求,成功的解決方案是提供一系列各具特色的產(chǎn)品。所以架構(gòu)肯定不止一個,但是也不會太多。我們可以按照功率從 1 瓦以下到 300 瓦,從推理、訓(xùn)練到機(jī)器學(xué)習(xí),從關(guān)注吞吐能力到關(guān)注延遲,按照各種要求實施不同的架構(gòu)。架構(gòu)對每瓦性能也有不同的敏感度。解決方案的能效值是多少?你愿意在其它方面妥協(xié)嗎?這不僅僅是在一個實例上進(jìn)行小程度的修改,而是面對一系列需求,必須有一系列互補(bǔ)性的架構(gòu)。
記者:這一系列架構(gòu)是什么?
Singer:主要有三個要素。第一,因為我們客戶要求不同,我們需要提供一個產(chǎn)品組合。你需要提供從終端設(shè)備(安全攝像頭、無人機(jī)或汽車等)到網(wǎng)關(guān)(數(shù)據(jù)匯聚點)再到云端或本地服務(wù)器的解決方案,每個層面都需要有非常有效的解決方案。第二,我們的硬件戰(zhàn)略是提供具有互補(bǔ)架構(gòu)和解決方案的組合。第三,進(jìn)一步使 Xeon 成為 AI 的堅實基礎(chǔ)。
記者:針對訓(xùn)練還是針對推理?
Singer:我們是從推理開始的。Xeon 是一個很好的推理解決方案。和其它任何產(chǎn)品相比,Xeon 的推理解決方案都毫不遜色,而且在總體擁有成本和靈活性方面具有其它優(yōu)勢。你看看 Facebook,他們會展示怎么對其 Top 7 服務(wù)進(jìn)行培訓(xùn)和推理的。
記者:但是 Facebook 這樣的公司對推理的要求和手機(jī)或汽車攝像頭一樣嗎?
Singer:不一樣,這就是你需要不同架構(gòu)的原因。你希望在大型數(shù)據(jù)中心中進(jìn)行推理,你可以利用同樣的計算進(jìn)行推理或者執(zhí)行其它任何任務(wù)。在低端市場中,我們有 Movidius 架構(gòu),它的功耗在 1 瓦到幾瓦之間(英特爾于 2016 年 9 月購買了開發(fā)計算機(jī)視覺應(yīng)用低功耗處理器的公司 movidius),你可以使用它實時創(chuàng)作音樂,或者將 Movidius 計算棒連接到手機(jī)上,檢測早期皮膚癌,然后進(jìn)行非常重要的分析。
記者:所以你們在數(shù)據(jù)中心和邊緣節(jié)點上都有方案了,你們戰(zhàn)略的第三部分是什么?
Singer:系統(tǒng)集成。當(dāng)您考慮系統(tǒng)集成時,擁有正確解決方案的大量價值都體現(xiàn)在數(shù)據(jù)移動上。一個好的解決方案應(yīng)該盡量減少數(shù)據(jù)移動,因為數(shù)據(jù)移動的成本要比對數(shù)據(jù)進(jìn)行乘除 / 累加貴 10 倍。針對如何在正確的位置、正確的時間取得數(shù)據(jù)進(jìn)行系統(tǒng)和軟件棧的優(yōu)化,是任何解決方案成功的關(guān)鍵。
記者:聽起來英特爾像是要發(fā)生從頭到腳的變化
Singer:當(dāng)然,你看一下我們對基本版本 Xeon 的改進(jìn),我們現(xiàn)在通過 VNNI(矢量神經(jīng)網(wǎng)絡(luò)指令集)和 BFloat 16 提升 DL(深度學(xué)習(xí))能力。過去,英特爾分別解決了浮點、SIMD 和矢量運(yùn)算。現(xiàn)在,AI 需要一系列能力,我們在 x86 架構(gòu)下實現(xiàn)了許多重要的新功能。我們希望為這兩種架構(gòu)提供優(yōu)化的解決方案。這就是我們和 Movidius 合作要解決的問題,我們將要發(fā)布 Nervana,這個架構(gòu)引入了 FPGA,它集成了最出色的 x86,并用最好的架構(gòu)增強(qiáng)它,對它加速?,F(xiàn)在從系統(tǒng)的層面來看,不僅僅是主機(jī)和加速器的改進(jìn),還涉及到存儲器和網(wǎng)絡(luò),它是一種系統(tǒng)集成。你在硅片上、封裝內(nèi)放什么東西?你在同一個機(jī)架中集成了什么?
記者:所以你們現(xiàn)在實施的是包含先進(jìn)封裝在內(nèi)的平臺策略。這是英特爾之前沒有認(rèn)真做過的事情,你覺得這種策略是怎么個玩法?
Singer:封裝內(nèi)集成可以將不同種類的事情結(jié)合在一起,并將之緊密集成,我們正在這方面努力,我們認(rèn)為這樣做非常有價值。
記者:新型硬件架構(gòu)正在發(fā)生的一個重大變化是增加數(shù)據(jù)密度,每個周期可以處理更多數(shù)據(jù),對吧?
Singer:這方面講的是數(shù)據(jù)壓縮和增加計算的并行性。你看我們從頭開始構(gòu)建的 Nervana NNP(神經(jīng)網(wǎng)絡(luò)處理器)架構(gòu),它具有張量神經(jīng)網(wǎng)絡(luò),你管理的是各種數(shù)據(jù)結(jié)構(gòu)。這是架構(gòu)創(chuàng)新的基礎(chǔ),使用 VNNI,你可以提供在數(shù)據(jù)結(jié)構(gòu)上執(zhí)行的指令,從而能夠在陣列上進(jìn)行計算。
記者:除了縮小功能單元外,還有更多優(yōu)勢,對吧?
Singer:我們需要從這個流程中得到需要的東西。我們一直將設(shè)計和架構(gòu)向矢量處理的方向推進(jìn)。我們將利用這種流程。不過,我們的目的是提高設(shè)計和架構(gòu)的效率,使得每個周期可以處理更多指令,始終都是為了讓向量盡可能快地運(yùn)行。
記者:但是現(xiàn)在你必須把這些東西融合在一起,數(shù)據(jù)在內(nèi)存中存儲和讀取的方式也可能不同。
Singer:是的。你必須能夠從內(nèi)存中提取這些數(shù)據(jù)結(jié)構(gòu),我們需要看到的另外一件事是如何融合純神經(jīng)網(wǎng)絡(luò)操作和常規(guī)的潛在循環(huán)代碼。如果你注意到現(xiàn)在已經(jīng)在開展的一些工作就會發(fā)現(xiàn),它會假設(shè)很多新的計算必須是深度學(xué)習(xí)。實際上,這些是具有神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的更加通用的任務(wù)。你需要一個非常有效的神經(jīng)網(wǎng)絡(luò)架構(gòu)。但是,如果一個方程的某些部分的次序性更強(qiáng)或者需要依賴更多條件,它同樣需要非常有效地完成。你需要能夠在常規(guī)運(yùn)算和神經(jīng)網(wǎng)絡(luò)運(yùn)算之間切換。我們目前正在研究的一個課題就是,如何在具有其它元素的真實背景中以最佳方式執(zhí)行神經(jīng)網(wǎng)絡(luò)運(yùn)算。如果你看一下 NNP 機(jī)器翻譯或者其它類似的工作,就會發(fā)現(xiàn)它們內(nèi)部就有一些不是神經(jīng)網(wǎng)絡(luò)計算的內(nèi)容,它們也是解決方案的一部分。
更多有關(guān)英特爾的資訊,歡迎訪問 與非網(wǎng)英特爾專區(qū)
與非網(wǎng)編譯內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載!